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内 容 提 要 


本 书 基 于 清晰 的 、 面 向 对 象 的 Java 代码 ， 讨 论 了 数据 科学 研究 的 一 些 基 本 原理 。 考 虑 到 项 
目 所 需 的 可 伸缩 性 、 稳 健 性 以 及 便利 性 ，Java 是 一 门 理想 的 语言 。 本 书 解释 了 数据 科学 过 程 每 
个 步骤 背后 的 基本 数学 原理 ， 以 及 如 何 将 这 些 概念 应 用 于 Java。 本 书 内 容 涉 及 数据 输入 与 输出 、 
线性 代数 、 统 计 学 、 数 据 操作 、 学 习 与 预测 ， 以 及 Hadoop MapReduce 在 这 个 过 程 中 所 扮演 的 
关键 角色 。 书 中 还 提供 了 在 应 用 程序 中 使 用 的 代码 示例 。 
本 书 适合 数据 科学 工作 者 以 及 希望 提高 数据 科学 技能 的 Java 软件 工程 师 阅 读 。 
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O’Reilly Media, Inc. 介 绍 


O'Reilly 以 “分 享 创 新 知识 、 改 变 世 界 ” 为 己任 。40 多 年 来 我 们 一 直 向 企业 、 个 人 提 
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数据 科学 是 一 个 多 样 化 且 正 在 发 展 的 领域 ， 它 涉及 数学 与 计算 机 科学 的 许多 子 领 域 。 在 数据 
科学 家 所 研究 的 领域 中 ， 多 种 学 科 交 织 在 一 起 ， 统 计 学 、 线 性 代数 、 数 据 库 、 机 器 智能 以 及 
数据 可 视 化 仅 是 其 中 的 一 部 分 。 各 种 技术 大 量 存在 ， 用 于 数据 科学 实践 的 工具 也 正在 快速 演 
化 。 本 书 基于 清晰 的 、 面 向 对 象 的 Java 代码 ， 主 要 讨论 一 些 核 心 的 基本 原理 。 本 书 将 激励 
你 立刻 着 手 实践 数据 科学 技能 ， 希 望 你 可 以 在 开发 下 一 代数 据 科学 技术 时 处 于 领先 位 置 。 


= 

读者 对 象 

本 书面 向 的 是 那些 已 经 熟悉 应 用 开发 概念 的 科学 家 和 工程 师 ， 他 们 想 直接 从 事 数据 科学 研 
究 。 本 书 将 循序 浙 进 地 引导 读者 进入 数据 科学 的 工作 流程 ， 在 解释 数学 原理 的 同时 给 出 代 
码 示例 。 对 于 想 深入 学 习 数 据 科学 的 读者 而 言 ， 本 书 是 个 完美 的 出 发 点 。 


写作 初衷 

我 撰写 本 书 是 为 了 开启 一 项 运动 。 由 于 R 语言 和 Python 语言 的 推动 ， 数 据 科 学 迅速 成 为 
热门 研究 领域 ， 但 很 少 有 数据 科学 从 业 人 士 冒 险 涉足 Java 世界 。 显 然 ， 数 据 探索 工具 适合 
采用 解释 型 语言 ， 但 是 在 工程 与 科学 混合 的 领域 ， 必 须 综合 考虑 可 伸缩 性 、 稳 健 性 以 及 便 
利 性 。Java 也 许 正 是 那 种 能 够 满足 上 述 所 有 要 求 的 语言 。 如 果 本 书 对 你 有 所 鼓舞 ， 那 么 期 
待 你 可 以 向 众多 支持 数据 科学 的 Java 开源 项 目 贡献 代码 。 


米 +] PES J 
数据 科学 现状 
数据 科学 正在 不 断 变 化 ， 包 括 其 应 用 范围 以 及 实践 数据 科学 的 人 。 技 术 的 发 展 非常 快 ， 仅 
需要 几 年 甚至 几 个 月 的 时 间 ， 顶 级 的 算法 就 会 过 时 。 对 于 实际 的 解决 方案 ， 人 们 抛弃 了 长 
期 采用 的 标准 化 做 法 。 成 功 道路 上 的 障碍 通常 是 由 定量 科学 未 曾 涉及 的 领域 内 的 人 士 克 服 
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的 。 目 前 ， 数 据 科学 已 经 是 一 门 本 科 生 课程 了 。 在 未 来 ， 要 想 取得 成 功 ， 只 有 一 条 途径 ， 
即 掌 握 数学 、 熟 悉 代 码 ， 并 知悉 所 要 解决 的 问题 。 


本 书 导读 

本 书 是 一 场 穿越 数据 科学 工作 流程 的 逻辑 之 旅 。 第 1 章 讨论 获取 数据 、 清 理 数 据 以 及 以 
最 纯粹 的 方式 排列 数据 的 众多 方法 ， 并 讨论 把 数据 输出 至 文件 或 者 进行 绘制 的 基本 方法 。 
第 2 章 讨论 把 数据 视 为 矩阵 的 重要 概念 ， 这 一 章 将 详细 回顾 矩阵 的 运算 。 有 了 数据 并 且 知 
道 数据 应 当 采 用 何 种 数据 结构 后 ， 第 3 章 引入 测试 数据 来 源 和 有 效 性 的 基本 概念 。 第 4 章 
直接 使 用 第 2 章 和 第 3 章 的 概念 ， 把 数据 转换 为 稳定 、 可 用 的 数值 。 第 5 章 介绍 一 些 实用 
的 监督 型 学 习 算法 与 无 监督 型 学 习 算法 ， 以 及 评估 这 些 算 法 是 否 成 功 的 方法 。 第 6 章 提供 
快速 指南 ， 采 用 适合 数据 科学 算法 的 定制 组 件 ， 设 置 并 运行 MapReduce 任务 。 附 录 A 给 
出 了 一 些 有 用 的 数据 集 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 


黑体 
表示 新 术语 或 重点 强调 的 内 容 。 

















等 宽 字体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 
和 关键 字 等 。 


加 粗 等 宽 字体 (constant width bold) 
表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 


等 宽 斜 体 (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 











该 图 标 表 示 提 示 或 建议 。 








该 图 标 表示 一 般 注 记 。 








该 图 标 表示 警告 或 警示 。 

















使 用 代码 示例 


补充 材料 〈 代 码 示例 、 练 习 等 ) 可 以 从 https:/Wgithub.comy/oreillymedia/Data_ Science with Java 
下 载 。 


本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 须 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 须 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ， 引 用 本 书 中 的 示例 代码 回答 问题 无 须 获 得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 


我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 括 书 名 、 
作者 、 出 版 社 和 ISBN， 比 如 “Data Science with Java by Michael Brzustowicz (O’Reilly). 
Copyright 2017 Michael Brzustowicz, 978-1-491-93411-1”。 






































如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许 可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 


O’Reilly Safari 


Safari (前 身 为 Safari Books Online) 是 一 个 会 员 制 的 培训 和 参考 平台 ， 面 向 企业 、 政 府 、 
教育 从 业者 和 个 人 。 


Safari 用 户 可 访问 O’Reilly Media, Harvard Business Review, Prentice Hall Professional, Addison- 
Wesley Professional, Microsoft Press, Sams, Que, Peachpit Press, Focal Press, Cisco Press, 
John Wiley & Sons, Syngress, Morgan Kaufmann, IBM Redbooks, Packt, Adobe Press, FT 
Press, Apress, Manning, New Riders, McGraw-Hill, Jones & Bartlett, Course Technology 
等 250 多 家 出 版 社 的 上 千 种 图 书 、 培 训 视频 、 学 习 路 径 、 交 互 式 教 程 和 精 选 播放 列表 。 





如 需 了 解 更 多 信息 ， 请 访问 http://oreilly.com/safari。 


联系 我 们 


请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 




















注 1: 可 以 访问 本 书 图 灵 社 区 页 面 (https://www.ituring.com.cn/book/2082) 下 载 示 例 代码 并 提交 中 文 版 勘误 。 
一 一 编者 注 
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对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : bookquestions@oreilly.com。 





























要 了 解 更 多 O'Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : http://www. 


oreilly.com, 

















我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly , 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia, 


我 们 的 YouTube 视频 地 址 如 下 : http:/www.youtube.com/oreillymedia, 
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我 们 身边 每 时 每 刻 都 有 事件 发 生 。 有 时候， 我 们 记录 下 了 时 空中 某 个 特定 点 发 生 的 离散 事 
件 。 然后， 我 们 可 以 把 数据 (data) 定义 为 一 系列 的 记录 ， 这 些 记录 是 某 人 (或 某 物 ) 花 
时 间 以 任何 可 以 想象 出 的 格式 写 下 来 (或 者 呈现 出 来 ) 的 。 peal 
件 、 数 据 库 、Web 服务 ， 等 等 。 通 常 ， 人 们 在 定义 能 够 准确 地 表示 各 种 变量 的 名 称 、 
型 、 变 量 值 的 范围 以 及 这 些 变量 之 间 关 系 的 模式 或 者 数据 模型 时 ， 会 遇 到 许多 困难 。 
而 ， 在 获取 数据 时 ， 并 非 总 能 强行 采用 茶 种 模式 。 真实 的 数据 (即使 是 精心 设计 的 数据 
E) 通常 会 存在 以 下 问题 : 缺失 值 、 拼 写 错误 、 不 正确 的 格式 化 类 型 、 对 同一 值 的 重复 表 
示 ， 其 至 将 儿 个 变量 拼接 成 了 一 个 变量 。 尽 管 人 们 对 实现 机 器 学 习 算 法 以 及 创建 漂亮 图 形 
感到 兴奋 ， 但 是 ， 数 据 科学 中 最 重要 且 最 耗 时 的 工作 是 准备 数据 和 确保 其 完整 性 。 


1.1 究竟 何谓 数据 


你 的 最 终 目 标 是 从 源头 获取 数据 ， 通 过 统计 分 析 或 者 学 习 对 数据 进行 归 约 ， 然 后 根据 学 到 
的 东西 给 出 某 种 知识 一 通常 采用 图 形 的 形式 表示 。 然 而 ， 即 使 所 求 结果 是 单个 值 ， 例 如 总 
收益 、 参 与 度 最 高 的 用 户 或 者 品质 因数 ， 也 需要 遵循 相同 的 流程 : 输入 数据 (input data) 一 
归 约 分 析 (reductive analysis) 一 输出 数据 (output data). 


鉴于 实际 的 数据 科学 受 业务 问题 驱动 ， 因 此 从 右 向 左 来 看 这 个 流程 会 更 方便 一 些 。 首 先 ， 
把 试图 回答 的 问题 正式 确定 下 来 。 例 如 ， 需 要 的 是 按 地 区 排列 的 顶级 用 户 列表 、 关 于 下 周 
每 天 收入 的 预测 ， 还 是 库存 物品 之 间 相 似 性 分 布 的 图 示 ? 下 一 步 ， 进 行 一 系列 分 析 ， 以 回 
答 这 些 问 题 。 最 后 ， 既 然 已 经 选 定 解决 问题 的 方法 ， 那 么 为 了 实现 这 个 目标 ， 究 竟 需 要 哪 
些 数据 ? 你 会 惊奇 地 发 现 自己 没有 所 需要 的 数据 。 另 外 ， 通 常 你 会 发 现 ， 一 些 比 预 想 的 简 
























































单 得 多 的 分 析 工 具 就 足以 得 到 所 需 的 输出 。 


本 章 将 探究 从 各 种 数据 源 读 取 数据 以 及 写 入 数据 的 具体 细节 。 重 要 的 是 ， 需 要 问 自己 : 对 
于 后 续 每 个 步 又， 需要 什么 样 的 数据 模型 ? 也许， 为 了 容纳 这 些 数据 ， 建 立 一 系列 的 数值 
数组 类 型 (例如 double[][]、int[]、String[]) 就 足够 了 。 这 样 做 可 能 是 有 益处 的 : 创建 
容器 类 以 保存 每 条 数据 记录 ， 然 后 把 这 些 对 象 添加 到 List 或 Map 中 。 还 有 另外 一 种 有 用 的 
数据 模型 ， 即 在 JavaScript 对 象 表示 法 (ISON) 文档 中 ， 把 每 条 记录 都 表示 为 键 - 值 对 的 
集合 。 有 具体 应 该 采用 哪 种 数据 模型 ， 很 大 程度 上 取决 于 后 续 数 据 消费 过 程 的 输入 需求 。 


1.2 ”数据 模型 
数据 采用 哪 种 形式 ， 需 要 转换 成 什么 形式 ， 才 能 继续 往 下 进行 ? 假设 文件 somefile.txt 包含 
数 行 数据 ， 每 一 行 都 有 id, year 以 及 city 数据 。 


1.2.1 一 维 数 组 
对 于 这 个 示例 而 言 ， 最 简单 的 数据 模型 是 为 id、year 以 及 city 这 3 个 变量 创建 一 系列 的 
BAL: 

int[] id = new int[1024]; 


int[] year = new int[1024]; 
String[] city = new String[1024]; 












































由 于 BufferedReader 循环 遍历 该 文件 的 每 一 行 ， 因 此 借助 于 增 量 计数 器 ， 可 以 把 变量 的 值 
放置 到 各 个 数组 的 相应 位 置 中 。 对 于 已 知 维度 的 洁净 数据 ， 这 种 数据 模型 可 能 就 足够 了 ， 
此 时 所 有 代码 都 放 入 同一 个 可 执行 类 中 。 可 以 直接 把 这 个 数据 提供 给 任何 数量 的 统计 分 析 
算法 或 者 学 习 算法 。 然 而 ， 有 时 可 能 需要 将 代码 模块 化 ， 并 构建 适合 于 数据 源 与 数据 模型 
的 每 种 组 合 的 类 以 及 随后 的 方法 。 在 这 种 情况 下 ， 为 了 适应 新 的 参数 而 必须 改变 现 有 方法 
的 签名 时 ， 在 数组 之 间 切 换 会 变 得 困难 。 


1.2.2 ”多 维 数组 
若 想 每 一 行 容纳 一 条 记录 的 所 有 数据 ， 则 这 些 数据 必须 是 相同 的 类 型 。 所 以 ， 在 上 面 的 例 
子 中 ， 只 有 把 城市 赋值 为 整 型 值 ， 才 能 工作 。 


















































int[] rowl = {1, 2014, 1}; 
int[] row2 = {2, 2015, 1}; 
int[] row3 = {3, 2014, 2}; 


也 可 以 将 其 处 理 为 二 维 数组 。 


int[][] data = {{1, 2014, 1}, {2, 2015, 1}, {3, 2014, 2}}; 
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第 一 次 查看 数据 集 时 ， 可 能 已 经 有 复杂 的 数据 模型 ， 或 者 只 是 文本 、 整 数 、double 型 以 及 日 
期 时 间 型 数据 的 混合 体 。 理 想 情况 下 ， 当 确定 了 要 将 哪些 数据 输入 到 统计 分 析 算 法 或 者 学 习 
算法 中 时 ， 这 些 数 据 已 经 被 转换 为 二 维 数 组 ， 数 组 的 元 素 是 double 型 。 然 而 ， 需 要 大 量 工 
作 才 能 达到 这 一 步 。 一 方面 ， 以 矩阵 的 形式 提供 数据 ， 从 而 采用 机 器 学 习 方 法 取得 进展 是 方 
便 的 ， 另 一 方面 ， 可 能 不 知道 需要 做 哪些 折 中 ， 或 者 已 经 扩散 了 哪些 未 被 检测 到 的 错误 。 


1.2.3 ”数据 对 象 

男 一 种 选择 是 创建 容器 类 ， 然 后 把 这 些 容器 对 象 添 加 到 List 或 Map 等 集合 中 。 这 样 做 的 优 
点 是 ， 将 一 条 特定 记录 的 所 有 值 保持 在 一 起 ， 向 类 中 添加 新 成 员 时 ， 不 会 破坏 任何 以 这 个 
类 作为 参数 的 方法 。 文 件 somefile.txt 中 的 数据 可 以 用 下 面 的 类 表示 : 



























































class Record { 
int id; 
int year; 
String city; 


} 


确保 该 类 尽 可 能 是 轻 量 级 的 ， 因 为 包含 这 些 对 象 的 集合 (List 或 Map) 会 形成 大 的 数据 
集 。 理想 情 况 下 ， 任 何 作 用 在 Record 对 象 上 的 方法 应 该 都 是 其 所 属 类 (该 类 可 能 命名 为 
RecordUtils) 中 的 静态 方法 。 


集合 结构 List 用 来 存放 所 有 Record 对 象 。 











List<Record> listOfRecords = new ArrayList<>(); 














采用 BufferedReader 遍历 数据 文件 时 ， 会 对 每 一 行进 行 解析 ， 并 将 其 内 容 存放 在 新 的 
Record 实例 中 ， 再 把 每 个 新 的 Record 实例 添加 到 List<Record> listOfRecords 中 。 若 需要 
通过 键 进行 快速 查找 ， 并 获取 某 个 单独 的 Record 实例 ， 则 可 以 使 用 Map。 











Map<String, Record> mapOfRecords = new HashMap<>(); 


对 于 特定 记录 而 言 ， 其 键 应 当 是 唯一 的 标识 符 ， 例 如 记录 编号 或 者 URL. 


1.2.4 和 矩阵 和 向 量 

矩阵 (matrix) 和 向 量 (vector) 是 更 高 层次 的 数据 结构 ， 它 们 分 别 由 二 维 数组 与 一 维 数 组 
构成 。 通 常 ， 数 据 集 包 含 多 个 行 与 列 ， 可 以 说 这 些 变量 形成 了 二 维 数组 (或 矩阵 ) X， 其 
中 及 行 n 列 。 若 选择 i 作为 行 索引 、j 作为 列 索 引 ， 则 m x n 和 矩阵 的 每 个 元 素 是 x; | 
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把 值 放 入 类 似 于 和 矩阵 的 数据 结构 中 ， 可 以 获得 便利 。 在 多 种 情况 下， 要 对 数据 进行 数学 运 
算 。 和 矩阵 实例 可 以 拥有 完成 这 些 运 算 的 抽象 方法 ， 也 有 适合 于 手头 某 项 任务 的 实现 细 市 。 
第 2 章 会 具体 讨论 矩阵 和 向 量 。 


1.2.5 JSON 


JavaScript 对 象 表示 法 (JavaScript Object Notation, JSON) 已 经 成 为 表示 数据 的 一 种 流行 
格式 。 通 常 ，JSON 数据 采用 json.org 列举 的 简单 规则 来 表示 : 采用 双 3 引 号 。 结 尾 处 没有 去 
号 。JSON 对 象 的 外 层 采用 了 花 括号 ， 内 部 是 任意 有 效 的 键 一 值 对 集合 ， 这 些 键 -- 值 对 用 
过 号 分 隔 (由 于 不 能 保证 其 内 容 的 顺序 ， 因 此 将 其 当 作 HashMap 类 型 来 处 理 )。 








{"city":"San Francisco", "year": 2020, "id": 2, "event_codes":[20, 22, 34, 19]} 











JSON 数组 的 外 层 是 方 括号 ， 其 内 部 的 有 效 JSON 内 容 采 用 逗号 分 隔 (数组 内 容 的 顺序 是 
有 保证 的 ， 因 此 当 作 ArrayList 类 型 来 处 理 )。 








[40, 50, 70, "text", {"city":"San Francisco"}] 


有 两 类 JSON 数据 结构 。 一 些 数据 文件 包含 完整 的 JSON 对 象 或 数组 ， 这 些 通常 是 配置 文 
件 。 然 而 ， 另 一 类 常见 数据 结构 是 由 独立 JSON 对 象 构成 的 文本 文件 ， 每 个 JSON 对 象 
占据 一 行 。 注 意 ， 严 格 来 说 ， 这 种 类 型 的 数据 结构 (由 JSON 对 象 构成 的 列表 ) 并 不 是 
JSON 对 象 或 者 数组 ， 原因 是 文件 中 并 没有 闭合 的 大 括号 ,或 者 是 由 于 行 之 间 没 有 逗号 。 
正 因 如 此 ， 试 图 把 整个 数据 结构 解析 为 JISON 对 象 或 数组 会 失败 。 


1.3 处理 实际 数据 


实际 数据 往往 是 杂乱 、 不 完整 、 不 正确 的 ， 有 时 甚至 是 不 连贯 的 。 若 正在 处 理 的 是 “ 完 
美 ”的 数据 集 ， 那 是 因为 有 人 已 经 花费 大 量 时 间 与 精力 使 它 变 成 那个 样子 。 也 可 能 是 ， 数 
据 事实 上 并 不 完美 ， 而 你 正在 不 知 不 觉 地 对 垃圾 数据 进行 分 析 。 唯 一 可 靠 的 途径 是 从 源头 
采集 数据 ， 然 后 自己 处 理 。 这 样 ， 若 发 生 了 错误 ， 也 可 以 知道 应 该 由 谁 负责 。 


1.3.1 BiH 

空 值 以 多 种 形式 出 现 。 若 数据 在 Java 内 部 传递 ， 则 完全 可 能 出 现 空 值 。 如 果 正 从 文本 文件 
解析 字符 串 ， 那 么 空 值 可 能 会 表示 为 多 种 形式 的 字符 串 ， 包 括 "null", "NULL" 或 "na" 等 
其 他 字符 串 ， 甚 至 是 名 点。 在 任何 一 种 情况 下 ( 空 值 或 者 null 字符 串 ) ， 都 需要 对 其 进行 
记录 。 




















































































































private boolean checkNull(String value) { 
return value == null || "null".equalsIgnoreCase(value) ; 





通常 ， 空 值 已 经 被 记录 为 一 个 空格 或 者 一 系列 空格 。 尽 管 这 样 做 有 时 让 人 烦恼 ， 但 是 它 可 
以 达到 某 种 目的 ， 因 为 把 数据 点 不 存在 这 一 概念 编码 为 0 并 不 总 是 合适 的 。 例 如 ， 如 有 果 在 
记录 二 值 变量 (0 与 1) 时 遇 到 了 一 个 并 不 知道 其 值 的 项 ， 那 么 为 其 错误 地 赋值 为 0 GES 
到 了 文件 中 )， 就 会 错误 地 把 真 的 负 例 赋 给 这 个 项 。 在 向 文本 文件 写 入 空 值 时 ， 我 的 偏好 
是 写 入 长 度 为 0 的 字符 串 。 








1.3.2 ”空格 

空格 广泛 存在 于 实际 数据 中 。 采 用 String.isEmpty() 方法 可 以 直接 检查 字符 串 是 否 为 空 
字符 串 。 然 而 请 注意 ， 由 空格 组 成 的 字符 串 〈 即 使 只 有 单个 空格 ) 并 不 是 空 的 ! 首先 ， 用 
String. trim() 方法 移 除 那些 位 于 输入 值 开 头 部 分 或 结尾 部 分 的 空格 ， 然 后 检查 它 的 长 度 。 
只 有 在 字符 串 长 度 为 0 时 ，String.isEmpty() 才 返 回 true, 














private boolean checkBlank(String value) { 
return value.trim().isEmpty(); 


} 


1.3.3 ”解析 错误 
一 旦 知道 了 字符 串 的 值 既 不 是 空 值 也 不 是 空格 ， 就 将 其 解析 为 所 需要 的 类 型 。 这 里 不 讨论 
如 何 将 字符 串 解 析 为 字符 串 ， 因 为 并 没有 什么 需要 解析 的 。 


当 处 理 数值 类 型 时 ， 把 字符 串 直 接 转换 为 基本 类 型 ， 例 如 double, int 或 Long， 是 不 明智 
的 。 推 荐 做 法 是 采用 对 象 封 装 类 ， 例 如 Double, Integer 和 Long， 它 们 都 有 字符 串 解 析 方 
法 。 如 果 发 生 错误 ， 那 么 这 些 方法 会 抛 出 NumberFormatException 异常 。 可 以 捕获 该 异常 ， 
并 更 新 解析 错误 计数 器 ， 也 可 以 打印 该 错误 ， 或 将 其 记 入 日 志 中 。 












































try { 
double d = Double. parseDouble(value) ; 
// 处 理 d 

} catch (NumberFormatException e) { 


// 对 解析 错误 计数 器 进行 递增 等 操作 

















同样 ， 也 可 以 用 offsetDateTime.parse() 方法 解析 日 期 时 间 格 式 的 字符 串 。 如 果 在 输入 字 
符 串 中 发 生 错误 ， 那 么 可 以 捕获 到 DateTimeParseException 异常 ， 并 记 入 日 志 中 。 























try { 
ý OffsetDateTime odt = OffsetDateTime.parse(value); 
// 处 理 odt 
} catch (DateTimeParseException e) { 
f // 对 解析 错误 计数 器 进行 递增 等 操作 








数据 的 输入 与 输出 | 5 


1.3.4 FHA 


清理 并 解析 数据 之 后 ， 即 可 检查 其 值 是 否 符合 需求 。 如 果 期 望 值 是 0 或 1， 得 到 的 却 是 2， 
那么 显然 这 个 值 超出 了 范围 ， 可 以 把 这 个 数据 点 标记 为 异常 值 。 就 如 同 在 处 理 空 值 与 空格 
时 所 做 的 那样 ， 可 以 对 这 个 值 进行 布尔 测试 ， 以 决定 它 是 否 处 于 可 接受 的 值 范围 之 内 。 这 
种 做 法 对 于 数值 类 型 、 字 符 串 以 及 日 期 时 间 类 型 都 是 适合 的 。 


对 数值 类 型 进行 范围 检查 时 ， 需 要 知道 可 接受 的 最 大 值 与 最 小 值 ， 以 及 这 两 个 值 是 否 包括 
在 内 。 例 如 ， 若 设 定 minValue = 1.0 H minValueInclusive = true， 则 所 有 大 于 或 等 于 1.0 
的 值 都 将 通过 测试 。 如 果 设 定 minValueInclusive = false， 则 只 有 大 于 1.0 的 那些 值 才 会 
通过 测试 。 代 码 如 下 : 




























































































public boolean checkRange(double value) { 
boolean minBit = (minValueInclusive) ? value >= minValue : value > minValue; 
boolean maxBit = (maxValueInclusive) ? value <= maxValue : value < maxValue; 
return minBit && maxBit; 


} 
可 以 为 整 型 数据 写 出 类 似 的 方法 。 


也 可 以 通过 设置 有 效 字 符 串 的 枚 举 ， 来 检查 字符 串 的 值 是 否 处 于 可 接受 范围 之 内 。 为 此 ， 
可 以 通过 创建 有 效 字符 串 的 Set 实例 (例如 validItems) 来 实现 ， 其 中 的 Set.contains() 
方法 用 于 测试 输入 值 的 有 效 性 。 




















private boolean checkRange(String value) { 
return validItems.contains(value) ; 


} 


对 于 DateTime 对 象 ， 可 以 检查 日 期 是 否 在 最 小 日 期 之 后 ， 在 最 大 日 期 之 前 。 在 这 种 情 
况 下 ， 把 日 期 的 最 小 值 与 最 大 值 定义 为 offsetDateTime 对 象 ， 然 后 测试 输入 的 日 期 时 间 
是 否 介 于 最 小 值 与 最 大 值 之 间 。 注 意 ，0ffsetDateTime.isBefore() 与 OffsetDateTime. 
isAfter() 是 不 包括 边界 值 的 。 如 果 输 入 的 日 期 时 间 等 于 最 小 值 或 最 大 值 ， 那 么 测试 将 返 
回 false。 代 码 如 下 : 








private boolean checkRange(OffsetDateTime odt) { 
return odt.isAfter(minDate) && odt.isBefore(maxDate) ; 


pr a 
1.4 管理 数据 文件 
数据 科学 艺术 始 于 对 数据 文件 的 管理 。 选 择 如 何 构建 数据 集 不 仅 关系 到 效率 ， 而 且 还 关系 
到 灵活 性 。 读 写 文件 有 多 种 选择 ， 最 基本 的 方法 是 采用 FileReader 实例 把 整个 文件 的 内 容 
读 入 到 String 类 型 中 ， 然 后 把 这 个 String 解析 为 相应 的 数据 模型 。 对 于 大 文件 而 言 ， 采 
用 BufferedReader 分 别 读 文 件 的 每 一 行 ， 可 以 避免 输入 输出 错误 。 这 里 的 策略 是 在 读 每 一 
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行 时 进行 解析 ， 仅 保留 那些 需要 的 值 ， 并 把 这 些 记录 填充 到 数据 结构 中 。 如 果 每 行 有 1000 
个 变量 ， 而 只 需要 其 中 的 3 个 ， 则 没 必 要 保存 所 有 变量 。 同 样 ， 若 某 一 行 中 的 数据 不 符合 
某 个 标准 ， 则 也 没有 必要 保存 该 行 。 对 于 大 型 数据 集 ， 相 比 于 把 所 有 行 读 入 到 字符 串 数 组 
(string[]) 中 ， 随 后 再 进行 解析 ， 这 种 方法 可 以 节省 很 多 资源 。 在 管理 数据 文件 的 这 一 
步骤 中 ， 孝 虑 得 越 多 ， 收 获 就 越 大 。 不 论 是 统计 、 学 习 还 是 绘制 ， 这 些 后 续 的 每 个 步骤 都 
将 依赖 于 构建 数据 集 时 的 决策 。 俗 话说 “输入 的 是 无 用 数据 ， 那 么 输出 的 也 一 定 是 无 用 数 
据 ”*"， 这 绝对 在 理 。 


1.4.1 首先 理解 文件 内 容 

数据 文件 的 结构 繁杂 ， 可 能 会 呈现 一 些 不 符合 需要 的 特征 (feature)。 回 忆 一 下 ，ASCII 文 
件 仅 是 打印 到 每 一 行 上 的 一 些 ASCII 字符 的 集合 。 它 无 法 保证 数值 的 格式 或 精度 ， 也 不 能 
保证 是 采用 单 引 号 还 是 双 引 号 ， 以 及 是 否 包 含 大 量 空格 、 空 值 以 及 换行 符 。 简 而 言 之 ,不 
管 对 文件 内 容 做 了 怎样 的 假设 ,文件 每 一 行 所 包含 的 内 容 都 可 能 是 各 式 各 样 的 。 用 Java 读 
取 文 件 之 前 ， 先 用 文本 编辑 器 或 命令 行 看 一 下 该 文件 。 注 意 每 一 行 中 每 一 项 的 个 数 、 位 置 
以 及 类 型 ， 要 特别 关注 缺失 的 值 或 空 值 是 如 何 表示 的 。 同 样 ， 要 注意 分 隔 符 的 类 型 ， 以 及 
任何 描述 数据 的 头 部 。 若 文件 足够 小 ， 则 可 以 通过 肉眼 来 查看 哪些 行 有 缺失 或 格式 错误 。 
例如 ， 假 定 在 bash shell 中 采用 UNIX 命令 less 来 查看 somefile.txt 文件 : 















































bash$ less somefile.txt 


"id", "year", "city" 
1,2015,"San Francisco" 
2,2014,"New York" 
3,2012,"Los Angeles" 


那么 可 以 看 到 数据 集 的 格式 采用 的 是 用 逗号 分 隔 的 值 (CSV) ， 它 由 id, year 以 及 city 这 
3 列 组 成 ， 可 以 快速 地 检查 文件 的 总 行 数 。 


bash$ wc -l somefile.txt 
1025 





这 表明 文件 共有 1024 行 数据 ， 再 加 上 一 行头 部 。 其 他 格式 也 是 可 能 的 ， 例 如 以 制 表 符 分 
隔 的 值 (TSV)、 所 有 值 都 拼接 在 一 起 的 “大 字符 串 ” 格 式 ， 以 及 JSON。 对 于 大 文件 ， 也 
许 想 看 前 100 行 左右 ， 并 把 它们 转换 为 一 个 摘要 文件 ， 以 便于 应 用 的 开发 。 





bash$ head -100 filename > new_filename 


在 某 些 情 况 下 ， 文 件 大 大 了 ， 以 至 于 无 法 用 一 双眼 睛 来 细 看 以 发 现 其 结构 或 错误 。 显 然 ， 
在 检查 具有 1000 列 的 数据 文件 时 ， 会 遇 到 障碍 。 同 样 ， 也 不 太 可 能 通过 访 动 有 100 万 行 
数据 的 文件 来 发 现 其 中 的 格式 错误 。 在 这 种 情况 下 ， 必 须 有 现存 的 数据 字典 ， 用 以 描述 列 
的 格式 ， 以 及 每 一 列 预期 的 数据 类 型 〈 例 如 整 型 、 浮 点 型 、 文 本 )。 采 用 Java 对 文件 进行 
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解析 时 ， 可 以 用 编程 方式 检查 每 一 行 数据 。 这 期 间 ， 程 序 可 能 会 抛 出 异常 ， 而 且 也 许 会 将 
不 合 规则 的 那些 行 的 内 容 全 部 打印 出 来 ， 以 便于 检查 是 什么 出 错 了 。 


1.4.2 ” 读 取 文本 文件 

读 取 文本 文件 的 通常 做 法 是 创建 FileReader 实例 ， 其 外 层 是 BufferedReader， 这 样 可 以 
读 取 每 一 行 。 在 这 里 ，FileReader 的 参数 是 String 类 型 的 文件 名 ， 但 是 FileReader 也 可 
以 采用 File 对 象 作为 它 的 参数 。 当 文件 名 和 路 径 依赖 于 操作 系统 时 ，File 对 象 是 有 用 的 。 
下 面 是 采用 BufferedReader 从 文件 中 按 行 读 取 的 一 般 形式 : 




















try(BufferedReader br = new BufferedReader(new FileReader("somefile.txt")) ) { 
String columnNames = br.readline(); // 若 文件 存在 ， 则 仅 执 行 这 一 操作 
String line; 
while ((line = br.readLine()) != null) { 
/* 解析 每 一 行 */ 
// TODO 





} 
} catch (Exception e) { 
System.err.println(e.getMessage()); // 或 记录 错误 
} 


若 文 件 在 远程 的 某 地 ， 则 也 可 以 做 同样 的 事 





ks 
Ho 


URL url = new URL("http://storage.example.com/public-data/somefile. txt"); 
try(BufferedReader br = new BufferedReader ( 
new InputStreamReader(url.openStream())) ) { 
String columnNames = br.readline(); // 若 文件 存在 ， 则 仅 执 行 这 一 操作 
String line; 
while ((line = br.readLine()) != null) { 
// T0D0， 解 析 每 一 行 





} catch (Exception e) { 
System.err.println(e.getMessage()); // 或 记录 错误 
} 


此 处 只 需要 关注 如 何 解析 每 一 行 。 


1. 解析 大 字符 串 
考虑 菜 个 文件 ， 其 中 每 一 行 是 一 个 “大 字符 串 ”， 它 由 一 些 值 以 及 任意 子 字符 串 拼 接 而 成 ， 
这 些 具 有 起 始 位 置 与 结束 位 置 的 子 字符 串 对 特定 变量 进行 编码 。 

















0001201503 
0002201401 
0003201202 





前 四 位 数字 是 编号 (id) 值 ， 接 下 来 的 四 位 是 年 份 (year)， 最 后 两 位 是 城市 (city) 编 
码 。 注 意 ， 每 一 行 都 可 能 有 几 千 个 字符 那么 长 ， 字 符 子 串 的 位 置 至 关 重 要 。 和 典型 的 情况 
是 ， 编 号 用 0 填充 ， 空 值 用 空白 表示 。 注 意 浮 点 数 中 的 句点 〈 例 如 32.456) 被 记 作 空 格 ， 
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和 其 他 “奇怪 的 ”字符 一 样 ! 通常 ， 文 本 字符 串 采 用 数值 编码 。 例 如 ， 在 上 面 例子 中 ， 
NewYork = 01, Los Angeles = 02 以 及 San Francisco = 03, 











此 时 ， 可 以 用 String.substring(int beginIndex, int endIndex) 方法 访问 每 一 行 的 值 。 注 
意 ， 子 字符 串 从 beginIndex 位 置 开始 ， 到 (但 不 包括 ) endIndex 位 置 结束 。 











/* 解析 每 一 行 */ 

int id = Integer.parseInt(line.substring(0, 4)); 
int year = Integer.parseInt(line.substring(4, 8)); 
int city = Integer.parseInt(line.substring(8, 10)); 


2. 解析 用 分 界 符 界定 的 字符 串 
考虑 到 电子 表格 与 数据 库 转 储 的 广泛 应 用 ， 你 很 有 可 能 会 在 某 一 时 刻 遇 到 CSV 数据 集 
解析 这 种 文件 可 能 并 不 那么 容易 。 假 设 示例 中 的 数据 采用 CSV 文件 格式 : 





1,2015,"San Francisco" 
2,2014,"New York" 
3,2012,"Los Angeles" 


然后 要 做 的 是 ， 用 String.split(",") 方法 解析 ， 并 用 String.trim() 方法 去 掉 任何 位 于 开 
始 与 结尾 处 的 令 人 烦恼 的 空格 。 同 时 ， 有 必要 采用 String.replace("\"", "") 方法 去 除 字 
符 串 两 边 的 引号 。 


/* 解析 每 一 行 */ 

String[] s = line.split(","); 

int id = Integer.parseInt(s[0].trim()); 

int year = Integer.parseInt(s[1]. ae 
String city = s[2].trim().replace("\"", ""); 
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下 面 的 例子 中 ， 文 件 somefile.txt 中 的 数据 已 经 用 制 表 符 分 隔 。 











1 2015 "San Francisco" 
2 2014 "New York" 
3 2012 "Los Angeles" 


通过 把 前 面 代码 中 的 String] s = line.split(",") 替换 为 String[] s = line.split("\t"), 
可 以 对 用 制 表 符 界定 的 数据 进行 分 离 。 





在 某 一 时 刻 ， 你 一 定 会 遇 到 有 些 字 段 中 包含 逗号 的 CSV 文件 。 这 样 的 例子 包括 从 用 户 
博客 中 获取 的 文本 。 男 一 个 例子 是 在 一 列 中 出 现 了 不 规范 的 数据 ， 例 如 “San Francisco, 
CA”， 它 没有 把 城市 与 州 分 别 放 入 两 个 列 中 。 这 在 解析 时 非常 棘手 ， 并 需要 正则 表达 式 。 
但 是 ， 为 什么 不 用 Apache Commons CSV 解析 库 呢 ? 








/* 解析 每 一 行 */ 
CSVParser parser = CSVParser.parse(line, CSVFormat.RFC4180); 
for(CSVRecord cr : parser) { 


int id = cr.get(1); // 列 从 1 开始 ， 而 不 是 从 9 开始 
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int year = cr.get(2); 
String city = cr.get(3); 
} 
Apache Commons CSV 库 也 可 以 处 理 包括 CSVFormat. EXCEL, CSVFormat.MYSQL 以 及 
CSVFormat.TDF 在 内 的 常见 格式 。 


3. 解析 ISON 字符 串 

JSON 是 一 种 用 于 对 JavaScript 对 象 进行 序列 化 的 协议 ， 可 以 扩展 到 所 有 类 型 的 数据 。 这 
种 紧凑 且 易 读 的 格式 普遍 存在 于 因特网 数据 API 中 (特别 是 RESTful 服务 )， 并 且 是 
许多 NoSQL 解决 方案 (例如 MongoDB 与 CouchDB) 的 标准 格式 。 自 9.3 版 本 开始 ， 
PostgreSQL 数据 库 提 供 了 JSON 数据 类 型 ， 可 以 查询 原生 ISON 字段 。 其 显著 优势 是 便 
于 人 类 阅读 ， 数 据 结 构 清 晰 可 见 ， 并 且 可 以 “优质 打印 ”。 就 Java iia, JSON 不 过 是 
HashMaps 与 ArrayLists 的 集合 而 已 ， 可 以 采用 能 够 想象 到 的 任何 寿 套 配置 。 对 于 前 面 示例 
的 每 一 行 数据 ， 可 以 把 那些 值 放 入 键 - 值 对 中 ， 从 而 成 为 JSON 字符 串 格 式 ， 字符 串 采 用 
双 引 号 〈 而 不 是 单 引号 ) 括 起 来 ， 并 且 不 允许 尾 端 出 现 喜 号 。 



























































{"id":1, "year":2015, "city":"San Francisco"} 
{"id":2, "year":2014, "city":"New York"} 

{"id":3, "year":2012, "city":"Los Angeles"} 
注意 ， 从 技术 上 讲 ， 整 个 文件 本 身 不 是 ISON 对 象 ， 把 整个 文件 本 身 解析 为 ISON HRA 
失败 。 要 成 为 有 效 的 ISON 格式 ， 每 一 行 必 须 用 有 逗号 分 隔 ， 然 后 整个 组 采用 方 括号 括 起 来 ， 
这 将 形成 JSON 数组 。 然 而 ， 写 出 这 样 的 结构 是 低 效 且 无 用 的 。 更 方便 且 更 有 用 的 做 法 是 
用 字符 串 表 示 的 ISON 对 象 构成 按 行 组 织 的 栈 。 注 意 ，JSON 解析 器 并 不 知道 键 - 值 对 中 
值 的 类 型 。 因 此 ， 要 获得 它 的 String 表示 ， 然 后 采用 装 箱 方法 将 其 解析 为 基本 类 型 。 现 
在 ， 采 用 org.simple.json 可 以 直接 构造 数据 集 。 


























/* 在 while 循 环 外 创建 JSON 解 析 器 */ 


JSONParser parser = new JSONParser(); 








/* 对 解析 得 到 的 字符 串 进行 类 型 转换 ， 以 创建 对 象 */ 
JSONObject obj = (JSONObject) parser.parse(line); 

int id = Integer.parseInt(j.get("id").toString()); 

int year = Integer.parseInt(j.get("year").toString()); 
String city = j.get("city").toString(); 


1.4.3 读 取 JSON 文 件 

本 节 讨 论 包含 字符 串 化 的 ISON 对 象 或 数组 的 文件 。 需 要 提前 知道 文件 是 ISON 对 象 还 是 
数组 。 例 如 ， 如 果 在 命令 行 中 采用 ls 命令 查看 文件 ， 将 看 到 该 文件 中 是 包含 花 插 号 (对 
) 还 是 方 括号 (数组 )。 














{{"id":1, "year":2015, "city":"San Francisco"}, 
"id":2, "year":2014, "city":"New York"}, 
{"id":3, "year":2012, "city":"Los Angeles"}} 


然后 采用 Simple JSON 库 。 


JSONParser parser = new JSONParser(); 

try{ 
JSONObject jObj = (JSONObject) parser.parse(new FileReader("data.json")); 
// T0D0， 对 jobj 对 象 进 行 处 理 

} catch (IOException|ParseException e) { 
System.err.println(e.getMessage()); 


} 
若 它 是 数组 : 


[{"id":1, "year":2015, "city":"San Francisco"}, 
{"id":2, "year":2014, "city":"New York"}, 
"id":3, "year":2012, "city":"Los Angeles"}] 


则 可 以 解析 整个 JSON 数组 。 


JSONParser parser = new JSONParser(); 

try{ 
JSONArray jArr = (JSONArray) parser.parse(new FileReader("data.json")); 
// T0D0， 对 jobj 对 象 进行 处 理 

} catch (IOException|ParseException e) { 
System.err.println(e.getMessage()); 


} 





如 果 某 个 文件 中 确实 每 一 行 都 是 ISON 对 象 ， 那 么 严格 来 说 ， 该 文件 并 不 是 
合格 的 ISON 数据 结构 。 请 参考 1.4.2 节 ， 在 那里 读 取 文 本 文件 时 ， 是 按照 
一 次 解析 一 行 的 方式 来 解析 JSON 对 象 的 。 








1.4.4 ERER 


使 用 图 像 作 为 学 习 算法 的 输入 时 ， 需 要 把 图 像 格式 〈 例 如 PNG) 转换 为 合适 的 数据 结构 ， 
例如 算 阵 或 向 量 。 这 里 有 几 点 需要 注意 。 首 先 ， 图 像 是 一 个 二 维 数组 ， 它 包括 坐标 fx, x9}, 
以 及 对 应 的 颜色 或 强度 值 集合 {y,…}， 该 集合 的 元 素 可 以 用 单个 整 型 值 存储 。 若 所 需 的 只 
是 以 二 维 整 型 数组 存储 的 原始 数值 (这 里 标记 为 data)， 则 可 以 用 下 面 的 代码 读 入 这 个 缓 
冲 的 图 像 : 























BufferedImage img = null; 
try { 
img = ImageIO.read(new File("Image.png")); 
int height = img.getHeight(); 
int width = img.getWidth(); 
int[][] data = new int[height][width]; 
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for (int i = 0; i < height; i++) { 
for (int j = 0; j < width; j++) { 
int rgb = img.getRGB(i, j); // 负 整 数 
data[i][j] = rgb; 
} 
} 
} catch (IOException e) { 
// 处 理 异 常 








} 
通过 对 整数 进行 移 位 操作 ， 可 以 将 其 转换 为 RGB 分 量 ( 红 、 绿 、 蓝 ) : 





int blue = 0x0000ff & rgb; 

int green = 0x0000ff & (rgb >> 8); 
int red = Ox0000ff & (rgb >> 16); 

int alpha = 0x0000ff & (rgb >> 24); 


然而 ， 可 以 用 下 面 的 方法 从 光栅 中 方便 地 获取 该 信息 : 


byte[] pixels = ((DataBufferByte) img.getRaster().getDataBuffer()).getData(); 
for (int i = 0; i < pixels.length / 3 ; i++) { 

int blue = Byte. toUnsignedInt(pixels[3*i]); 

int green = Byte.toUnsignedInt(pixels[3*i+1]); 

int red = Byte.toUnsignedInt(pixels[3*i+2]); 
} 


颜色 可 能 并 不 重要 ， 灰 度 级 或 许 正 是 所 需要 的 : 




















// 把 RGB 转换 为 灰 度 级 (9~1) ， 其 中 颜色 值 的 范围 是 9~255 
double gray = (0.2126 * red + 0.7152 * green + 0.0722 * blue) / 255.0 














Esh, TERMED, SEPT ee. WEEE TBE Ta ee, YD 
把 矩阵 转换 为 向 量 ， 例 如 ，x, = xi, xy 0°, FER Tae HER n 等 于 矩阵 的 行 数 乘 以 列 数 ， 即 
m x p。 在 著名 的 手写 图 像 数 据 集 MNIST 中 ， 数 据 已 经 进行 了 纠正 〈 居 中 与 裁剪 )， 并 
转换 成 二 进 制 格式 。 因 此 需要 一 种 专门 格式 读 取 该 数据 ( 见 附录 A) ， 但 是 它 已 经 是 向 量 
(一 维 ) 而 不 是 矩阵 (二 维 ) 格式 了 。 针 对 MNIST 数据 集 的 学 习 技 术 通 常 涉及 这 种 向 量化 
的 格式 。 


1.4.5“ 写 入 文本 文件 

把 数据 写 入 到 文件 中 的 一 般 方式 是 采用 Filewriter 类 ， 但 是 依旧 要 推荐 采用 Bufferedwriter 
类 ， 以 防止 任何 输入 /输出 错误 。 通 常 做 法 是 把 想 要 写 入 文件 的 数据 转换 为 单一 的 字符 串 。 
对 于 示例 中 的 3 个 变量 ， 可 以 采用 所 选择 的 分 界 符 (要 么 是 逗号 ,要么 是 \t) 来 手动 操作 。 


























/* 对 于 每 个 Record 记录 实例 */ 
String output = Integer.toString(record.id) + "," + 
Integer.toString(record.year) + "," + record.city; 





在 Java 8 中，String.join(delimiter，elements) 方法 是 方便 的 。 








/* 在 Java 8 中 */ 


String newString = String.join(",", {"a", "b", "c"}); 


/* Ma Iterator geet */ 


String newString = String. join(", 


» myList); 


此 外 ， 还 可 以 使 用 Apache Commons Lang 中 的 StringUtils.join(elements, delimiter) Fy 
法 ， 或 者 在 循环 中 使 用 原生 类 StringBuilder, 








/* 在 Java7 中 >/ 
String[] strings = {"a", "b", "c"}; 


/* 创建 StringButLder 对 象 并 添加 第 一 个 成 员 */ 
StringBuilder sb; 
sb.append(strings[0]); 











/* 略 过 第 一 个 字符 串 ， 因 为 已 经 拥有 它 了 */ 
for(int i = 1; i < strings.length, i++){ 
/* 此 处 选择 分 隔 符 …… 对 于 制 表 符 ， 也 可 以 是 \t */ 


sb.append(","); 
sb.append(strings[i]); 








} 


String newString = sb.toString(); 


注意 ， 连 续 地 进行 字符 串 串 联 操作 (myString += myString_part) 会 调用 StringBuilder 
类 ， 因 此 也 可 以 直接 使 用 StringBuilder 类 (或 者 不 用 )。 在 任何 情况 下 ， 字 符 串 都 是 逐 行 
写 入 的 。 注 意 ，BufferedWriter.write(String) 方法 不 会 写 新 行 。 如 果 想 把 数据 的 每 条 记 
录 都 写 到 单独 的 一 行 ， 则 必须 调用 BufferedWriter .newLine() 方法 。 

















try(BufferedWriter bw = new BufferedWriter(new FileWriter("somefile.txt")) ) { 
for(String s : myStringList){ 
bw.write(s); 
/* 不 要 忘记 追加 新 行 ! */ 
bw.newLine(); 
} 
} catch (Exception e) { 
System.out.println(e.getMessage()); 


} 
前 面 的 代码 覆盖 了 文件 名 指定 的 文件 中 所 有 现存 的 数据 。 在 某 些 场合 ， 需 要 向 现存 文件 追 


加 数据 。Filewriter 类 有 可 选 的 布尔 型 字段 append， 若 不 使 用 这 个 字段 的 话 ， 则 其 默认 值 
是 false。 为 了 打开 文件 以 追加 到 下 一 可 用 的 行 ， 可 以 采用 下 面 的 代码 : 























/* 设置 FileWriter 的 append 位 ,保留 现 有 数据 ， 并 追加 新 数据 */ 
try(BufferedWriter bw = new BufferedWriter( 

new FileWriter("somefile.txt", true))) { 

for(String s : myStringList){ 
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bw.write(s); 
/* 不 要 忘记 追加 新 行 ! */ 
bw.newLine(); 
} 
} catch (Exception e) { 
System.out.println(e.getMessage()); 


} 


另 一 种 选择 是 使 用 Printwriter 类 ， 它 将 BufferedWriter.FileWriter 对 象 作为 参数 。 
PrintWriter 类 有 个 printtn() 方法 ， 无 论 在 何 种 操作 系统 上 ， 它 都 采用 原生 换行 符 。 因 此 
在 代码 中 可 以 不 用 \n。 这 样 做 的 好 处 是 ， 不 用 考虑 添加 那些 麻烦 的 换行 符 。 如 果 在 你 自己 
的 计算 机 (以 及 相应 的 操作 系统 ) 上 生成 文本 文件 ， 并 且 是 你 自己 使 用 这 些 文件 ， 那 么 上 
述 方法 同样 适用 。 下 面 是 应 用 Printwriter 类 的 例子 : 

















try(PrintWriter pw = new PrintWriter(new Bufferedwriter( 
new FileWriter("somefile.txt"))) ) { 
for(String s : myStringList){ 
/* 添加 新 行 ! */ 
pw.println(s); 


} catch (Exception e) { 
System.out.println(e.getMessage()); 


} 


对 于 JSON 数据 ， 这 些 方法 都 适用 。 采 用 JSONObject toString() 方法 可 以 把 每 个 JSON 对 
象 转换 为 string， 然 后 把 这 个 String 写 和 文件 中 。 如 果 你 正在 写 ISON 对 象 ， 例 如 配置 文 
件 ， 就 像 下 面 一 样 简单 : 














JSONObject obj =... 


try(BufferedWriter bw = new BufferedWriter(new FileWriter("somefile.txt")) ) { 
bw.write(obj.toString()); 

} 

} catch (Exception e) { 
System.out.println(e.getMessage()); 


} 
当 创 建 ISON 数据 文件 (关于 ISON 对 象 的 栈 ) 时 ， 遍 历 ISONObjects RA: 
List<JSONObject> dataList =... 


try(BufferedWriter bw = new BufferedWriter(new FileWriter("somefile.txt")) ) { 
for(JSONObject obj : dataList){ 
bw.write(obj.toString()); 
/* 不 要 忘记 追加 新 行 ! */ 


bw.newLine(); 


} catch (Exception e) { 
System.out.println(e.getMessage()); 





如 果 文 件 是 要 累积 的 ， 那 么 不 要 忘记 设置 Filewriter 中 的 追加 位 。 只 需 通过 在 Filewriter 
中 设置 追加 位 ， 就 可 以 把 更 多 ISON 记录 添加 到 文件 末尾 : 











try(BufferedWriter bw = new BufferedWriter( 
new FileWriter("somefile.txt", true)) ) { 


1.5 ”掌握 数据 库 操作 


关系 数据 库 (例如 MySQL) 的 稳健 性 与 灵活 性 使 得 它们 成 为 许多 应 用 场合 中 最 适合 的 技 
术 。 作 为 一 名 数据 科学 家 ， 你 很 可 能 会 与 关系 数据 库 交 互 ， 以 连接 到 更 大 的 应 用 ， 或 者 会 
为 数据 科学 小 组 的 任务 生成 一 些 有 组 织 的 压缩 数据 表格 。 无 论 哪 种 情况 ， 掌 握 命令 行 、 结 
构 化 查询 语言 (SQL) 以 及 Java 数据 库 连 接 (JDBC) 都 是 关键 的 技能 。 


1.5.1 命令 行 客户 端 

对 于 管理 数据 库 以 及 执行 查询 而 言 ， 命 令 行 是 很 棒 的 环境 。 作 为 交互 式 shell， 客 户 端 可 以 
对 探索 数据 的 命令 进行 快速 修改 。 查 询 语句 在 命令 行 中 通过 后 ， 你 可 以 在 以 后 把 SQL SA 
到 Java 程序 中 。 为 了 满足 更 加 灵活 的 运用 ， 查 询 中 可 以 包括 参数 。 所 有 流行 的 数据 库 ， 例 
All MySQL, PostgreSQL 和 SQLite， 都 有 命令 行 客户 端 。 在 已 经 安装 了 MySQL (MFF 
发 ) 的 系统 中 (例如 个 人 计算 机 )， 应 该 能 够 匿名 登录 以 进行 数据 库 连 接 ， 其 中 数据 库 名 
是 可 选 的 。 



























































bash$ mysql <database> 























然而 ， 你 也 许 不 能 创建 新 数据 库 。 可 以 用 如 下 命令 以 数据 库 管 理 员 身份 登录 : 
bash$ mysql -u root <database> 


这 样 就 具有 了 完全 的 访问 权限 和 特权 。 在 其 他 任何 情况 下 〈 例 如 ， 正 连接 到 生产 机 器 、 远 
程 实例 ， 或 者 基于 云 的 实例 ) ， 需 要 下 面 的 方法 : 








bash$ mysql -h host -P port -u user -p password <database> 











一 且 连 接 上 ， 就 可 以 使 用 MySQL shell 进行 查询 ， 列 出 有 访问 权限 的 所 有 数据 库 、 已 经 连 
接 的 数据 库 名 以 及 用 户 名 : 





mysql> SHOW DATABASES; 
若 要 切换 到 新 数据 库 ， 可 以 采用 USE dbname 命令 : 


mysql> USE myDB; 
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现在 可 以 创建 表 了 : 
mysql> CREATE TABLE my_table(id INT PRIMARY KEY, stuff VARCHAR(256)); 


更 进一步 ， 如 果 把 那些 创建 表 的 脚本 另存 为 文件 ， 下 面 的 命令 将 读 取 并 执行 该 文件 : 























mysql> SOURCE <filename>; 


当然 ， 也 许 你 想 知 道 数据 库 中 有 哪些 表 。 可 以 用 下 面 的 命令 : 

















mysql> SHOW TABLES; 


AM BIZ AMR, TEI, BRA, MUTA Pa > : 














mysql> DESCRIBE <tablename>; 


1.5.2 ”结构 化 查询 语言 

对 于 浏览 数据 而 言 ， 结 构 化 查询 语言 (SQL) 是 个 强大 的 工具 。 尽 管 在 企业 软件 应 用 中 ， 
对 象 关 系 映射 (ORM) 框架 有 一 席 之 地 ,但 是 对 于 数据 科学 家 所 面 对 的 任务 类 型 而 言 ， 
ORM 框架 太 受 限制 了 。 提 高 SQL 技能 ， 并 先 掌 握 下 面 的 基础 知识 是 个 不 错 的 主意 。 


1. 创建 
为 了 创建 数据 库 和 表 ， 采 用 下 面 的 SQL 语句 : 



































CREATE DATABASE <databasename>; 


CREATE TABLE <tablename> (coll type, col2 type, ...); 


2. 选择 
SELECT 语句 的 一 般 形式 如 下 : 


SELECT 
[DISTINCT] 
col_name, col_name, ... col_name 
FROM table_name 
[WHERE where_condition] 
[GROUP BY col_name [ASC | DESC]] 
[HAVING where_condition] 
[ORDER BY col_name [ASC | DESC]] 
[LIMIT row_count OFFSET offset] 
[INTO OUTFILE 'file_name' ] 








有 一 些 技 巧 迟 早 可 以 派 上 用 场 。 假 设 数 据 集 包 含 几 百 万 个 数据 点 ， 而 你 只 想 知 道 其 大 致 情 
况 ， 则 可 以 用 ORDER BY 命令 返回 随机 样本 : 








ORDER BY RAND(); 





可 以 设置 LIMIT 为 想 要 返回 的 样本 大 小 : 








ORDER BY RAND() LIMIT 1000; 


3. 插入 
通过 下 面 的 语句 把 数据 插入 到 新 行 : 














INSERT INTO tablename(col1, col2, ...) VALUES(val1, val2, ...); 

注意 ， 如 果 要 插入 的 是 一 行 的 所 有 列 的 值 ， 而 不 是 这 些 列 的 子 集 ， 就 可 以 不 给 出 列 名 : 
INSERT INTO tablename VALUES(val1, val2, ...); 

也 可 以 一 次 插入 多 条 记录 : 


INSERT INTO tablename(col1, col2, ...) VALUES(val1, val2, ...),(val1, val2, ...), 
(val1, val2, ...)3 


4. 更 新 

在 某 些 情况 下 ， 需 要 更 改 现 有 记录 。 如 果 需 要 修补 错误 或 者 更 正 错字 ， 那 么 大 多 数 时 候 可 
以 在 命令 行 中 快速 完成 该 操作 。 毫 无 疑问 ， 数 据 科学 研究 人 员 会 访问 那些 正在 从 事 生 产 或 
者 正在 进行 分 析 与 测试 的 数据 库 ， 但 也 可 能 正 处 于 临时 数据 库 管 理 员 (DBA) 的 位 置 。 当 
涉及 实际 的 用 户 与 数据 时 ， 更 新 记录 是 很 常见 的 。 














UPDATE table_name SET col_name = 'value' WHERE other_col_name = 'other_val'; 





在 数据 科学 领域 ， 很 难 想 象 需要 采用 编程 的 方法 来 更 新 数据 的 场合 。 当 然 会 有 例外 ， 例 如 
前 面 提 到 的 错字 纠正 或 者 逐渐 地 建立 表 ， 但 是 对 于 绝 大 多 数 情 况 ， 更 新 重要 数据 听 上 去 像 
是 一 场 灾难 ， 尤 其 是 当 多 个 用 户 正 依赖 于 相同 数据 ， 并 且 已 经 编写 代码 ， 随 后 将 针对 静态 
数据 集 进行 分 析 时 。 


5. 删除 (BE) 

如 今 ， 存 储 成 本 很 低 ， 删 除数 据 似 乎 是 不 必要 的 ， 但 是 正 像 UPDATE， 如 果 产 生 了 错误 ， 
却 不 想 重建 整个 数据 库 ， 那 么 删除 就 是 有 用 的 。 通 和 常 ， 你 依据 特定 标准 删除 记录 ， 例 如 
user_id、record_id 或 者 是 在 某 个 特定 日 期 之 前 : 









































DELETE FROM <tablename> WHERE <col_name> = 'col_value'; 





另 一 个 有 用 的 命令 是 TRUNCATE， 它 删除 表 中 所 有 数据 ， 但 是 保持 表 原 封 不 动 。 本 质 上 ， 
TRUNCATE 的 作用 是 把 表 擦 除 干净 : 


TRUNCATE <tablename>; 


6. 删除 〈 表 与 数据 库 ) 
如 果 想 删除 表 中 所 有 数据 以 及 表 本 身 ， 那 么 必须 采用 DROP 命令 ， 该 命令 彻底 删除 表 : 








数据 的 输入 与 输出 | 17 


DROP TABLE <tablename>; 


和 的 命令 删除 整个 数据 库 及 其 所 有 内 容 : 








zi 














DROP DATABASE <databasename>; 


1.5.3 ”Java 数据 库 连 接 

Java 数据 库 连 接 (JDBC) 是 连接 Java 应 用 与 任何 支持 SQL 的 数据 库 的 协议 。 每 个 数据 库 
提供 商都 有 独立 的 JAR 文件 作为 JDBC 驱动 程序 ， 在 构建 及 运行 时 ， 必 须 引 入 该 文件 。 不 
论 是 哪个 数据 库 提供 商 ，JDBC 技术 都 致力 于 在 各 种 应 用 与 数据 库 之 间 提供 统一 的 接口 。 























1. 连接 
使 用 JDBC 连接 到 数据 库 是 非常 简单 方便 的 。 只 需 为 数据 库 填 写 适 当 格 式 的 URI (统一 资 
源 标 识 符 ) ， 通 向 的 格式 如 下 : 











String uri = "jdbc:<dbtype>:[location]/<dbname>?<parameters>" 














DriverManager .getConnection() 方法 会 抛 出 异常 ， 处 理 该 异常 有 两 种 选择 。 目 前 Java 的 做 
法 是 把 连接 放 在 try 语句 中 ， 这 称 为 在 try 语句 中 调用 资源 (try with resource)。 采 用 这 种 
方法 ， 执 行 try 程序 段 之 后 ， 连 接 会 自动 关闭 ， 因 此 不 必 再 显 式 调用 Connection.close() 
方法 。 记 住 ， 如 果 决 定 把 连接 语句 置 入 实际 的 try 程序 段 中 (而 不 是 在 try 语句 中 )， 那 么 
需要 自己 显 式 地 关闭 连接 (很 可 能 是 在 finally 程序 段 中 )。 

















String uri = "jdbc:mysql://localhost:3306/myDB?user=root"; 
try(Connection c = DriverManager.getConnection(uri)) { 
// T0D0， 填 写 自 己 的 代码 
} catch (SQLException e) { 
System.err.println(e.getMessage()); 


} 
在 拥有 了 连接 之 后 ， 有 两 个 问题 需 弄 清楚 。 


在 SQL 字符 串 中 是 否 有 任何 变量 (是 否 会 以 任何 方式 对 SQL 字符 串 进行 修改 ) ? 
是 否 期 望 从 查询 中 返回 任何 结果 ， 而 不 是 仅 返 回 查 询 成 功 与 否 的 标志 ? 


首先 假设 将 要 创建 Statement 对 象 。 如 果 该 Statement 对 象 有 变量 (例如 ， 将 要 向 SQL 语 
名 中 追加 应 用 变量 ) ， 那 么 使 用 PreparedStatement 对 象 。 若 不 希望 返回 任何 结果 ， 则 这 样 
做 就 可 以 了 。 若 希望 返回 结果 ， 则 需要 使 用 ResuLtSets 对 象 存放 并 处 理 结果 。 















































2. SQL 语句 
执行 SQL 语句 时 ， 考 虑 下 面 的 例子 : 














DROP TABLE IF EXISTS data; 
CREATE TABLE IF NOT EXISTS data( 





id INTEGER PRIMARY KEY, 
yr INTEGER, 
city VARCHAR(80)); 
INSERT INTO data(id, yr, city) VALUES(1, 2015, "San Francisco"), 
(2, 2014, "New York"),(3, 2012, "Los Angeles"); 





本 例 中 所 有 SQL 语句 都 是 硬 编码 的 字符 串 ， 没 有 可 改变 的 部 分 。 它 们 (除了 返回 布尔 类 型 
的 编码 ) 没有 返回 任何 值 ， 可 以 采用 下 面 的 方法 在 上 述 try-catch 程序 段 中 独立 地 执行 : 

















String sql = "<sql string goes here>"; 
Statement stmt = c.createStatement(); 
stmt.execute(sqLl); 

stmt.close(); 


3. 预备 语句 

也 可 以 不 把 所 有 数据 硬 编码 到 SQL 语句 中 。 同 样 ， 可 以 通过 SQL 的 WHERE 子 句 创建 通用 
更 新 语句 ， 更 新 给 定 id 的 记录 的 city 列 。 尽 管 你 可 能 禁不住 要 通过 拼接 来 构造 SQL F 
符 串 ， 但 实际 中 不 推荐 这 样 做 。 任 何 时候 ， 若 把 外 部 输入 替换 进 SQL 表达 式 中 ， 就 有 
可 能 受到 SQL 注入 攻击 。 合 适 的 方法 是 在 SQL 语句 中 采用 占 位 符 〈 即 问号 ) ， 然 后 使 用 
PreparedStatement 类 适当 地 引用 输入 变量 并 执行 查询 。 预 备 语句 的 优点 不 仅 包 括 安全 性 ， 
也 包括 速度 快 。 相 较 于 每 一 次 插入 操作 ， 都 编译 一 条 新 SQL 语句 ，PreparedStatement 只 
需 编译 一 次 。 对 于 大 量 的 插入 操作 ， 这 种 方法 可 以 极 大 地 提高 插入 过 程 的 效率 。 前 面 的 
INSERT 语句 ， 如 果 采 用 相应 的 Java 语句 ， 可 以 写成 下 面 这 样 : 









































String insertSQL = "INSERT INTO data(id, yr, city) VALUES(?, ?, ?)"; 
PreparedStatement ps = c.prepareStatement(insertSQL); 

/* 设置 每 个 占 位 符 "? "的 值 ， 起 始 索引 是 1 */ 

ps.setInt(1, 1); 

ps.setInt(2, 2015); 

ps.setString(3, "San Francisco"); 

ps.execute(); 

ps.close(); 























但 如 果 有 大 量 数据 ， 并 且 需 要 遍历 列表 ， 那 么 该 如 何 做 呢 ? 可 以 采用 批 处 理 模 式 (batch 
mode)。 例 如 ， 假 设 有 一 个 包含 Record 对 象 的 List, HAREMA CSV 导入 的 : 














String insertSQL = "INSERT INTO data(id, yr, city) VALUES(?, ?, ?)"; 
PreparedStatement ps = c.prepareStatement(insertSQL); 
List<Record> records = FileUtils.getRecordsFromCSV(); 
for(Record r: records) { 

ps.setInt(1, r.id); 

ps.setInt(2, r.year); 

ps.setString(3, r.city); 

ps.addBatch(); 
} 
ps.executeBatch(); 
ps.close(); 
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4. 结果 集 


SELECT 语句 会 返回 结果 。 每 次 编写 SELECT 语句 时 ， 都 需要 调用 Statement.executeQuery() 
方法 ， 而 不 是 execute() 方法 ， 并 且 要 把 返回 结果 赋值 给 ResultSet, fE Bc He He ARE 
HH, ResultSet 是 游标 ， 它 是 可 迭代 的 数据 结构 。Java 类 ResultSet 本 身 实现 了 Java 接口 
Iterator， 从 而 可 以 使 用 熟悉 的 while-next 循环 。 








String selectSQL = "SELECT id, yr, city FROM data"; 
Statement st = c.createStatement(); 
ResultSet rs = st.executeQuery(selectSQL); 


while(rs.next()) { 


int id = rs.getInt("id"); 
int year = rs.getInt("yr"); 


String city = rs 


rs.close(); 
st.close(); 


.getString("city")); 
// T0D0， 对 每 一 行 的 值 进行 处 理 




















就 像 需 要 对 文件 逐 行进 行 读 取 那 样 ， 你 必须 决定 如 何 处 理 数据 。 你 也 许 要 把 每 个 值 在 和 与 
值 同类 型 的 数组 中 ， 或 者 会 把 每 行 数据 存 人 到 一 个 类 中 ， 再 用 该 类 来 建立 列表 。 注 意 ， 我 
们 现在 正 按照 数据 库 模式 ， 根 据 列 名 获取 列 值 ， 进 而 从 Resultset 实例 中 提取 值 。 可 以 通 
过 从 1 开始 递增 列 索 引 来 实现 。 


1.6 通过 绘图 将 数据 可 视 化 
在 数据 科学 中 ， 数 据 可 视 化 是 令 人 兴奋 的 重要 组 成 部 分 。 大 量 可 用 的 有 趣 数 据 与 交互 式 图 
形 技术 的 结合 ， 产 生 了 令 人 震惊 的 可 视 化 效果 ， 将 原本 复杂 的 事情 讲述 得 非常 清楚 。 好 多 
时 候 ， 可 视 化 是 所 有 人 期 待 的 。 最 重要 的 是 ， 要 意识 到 ， 依 据 所 选择 展示 的 数据 片段 以 及 
所 利用 的 图 形 样式 ， 同 一 数据 源 可 以 讲 出 完全 不 同 的 事情 。 

记 住 ， 数 据 可 视 化 必须 学 虑 受众 的 需要 。 可 视 化 的 消费 者 大 体 可 以 分 为 三 类 。 首 先是 你 自 
己 ， 即 无 所 不 知 的 专家 ， 最 有 可 能 对 数据 分 析 或 者 算法 开发 进行 快速 迭代 。 你 的 需要 是 尽 
可 能 简单 明了 地 、 快 速 地 看 到 数据 。 设 置 图 形 的 标题 、 

















期 格式 等 ， 这 些 也 许 并 不 重要 ， 因 
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标 轴 标 签 、 平 请 、 图 例 ， 还 有 日 





为 你 自己 知道 要 看 的 是 什么 。 本 质 上 ， 我 们 经 常 对 数据 














进行 绘制 ， 就 是 为 了 快速 概览 数据 全 貌 ， 并 不 关心 其 他 人 如 何 查 看 数据 。 


数据 可 视 化 的 第 二 类 消费 者 是 业界 专家 。 解 决 一 个 数据 科学 问题 且 准 备 好 分 享 后 ， 关 键 是 
要 完整 地 标识 坐标 轴 ， 为 其 加 上 有 意义 的 描述 性 标题 ， 确 保 每 一 系列 的 数据 都 用 图 例 做 了 
描述 ， 并 且 保 证 所 绘制 的 图 本 身 能 大 致 讲 明白 一 件 事情 。 即 使 它 在 视觉 上 不 能 给 人 留 下 深 





























刻印 象 ， 但 是 同事 和 同行 很 可 能 不 在 乎 那些 中 看 不 中 用 的 东西 ， 他 们 在 意 的 是 试图 向 他 们 
传递 的 信息 。 事 实 上 ， 如 果 可 视 化 能 够 做 到 图 形 小 部 件 清晰 且 效 果 良 好 的 话 ， 那 么 人 们 更 


加 容易 对 一 项 工作 的 价值 
































放出 科学 的 评价 。 当 然 ， 这 利 


h 格 式 对 于 数据 归档 也 是 必要 的 。 若 
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现在 不 对 坐标 轴 进 行 标记 ， 一 个 月 后 ， 你 将 记 不 得 它们 代表 什么 了 。 


数据 可 视 化 的 第 三 类 消费 者 是 其 他 所 有 人 。 现 在 是 发 挥 创造 性 以 及 艺术 性 的 时 候 了 ， 因 为 
仔细 选择 颜色 和 样式 可 以 使 好 的 数据 显得 更 棒 。 然 而 要 小 心 的 是 ， 你 需要 花费 大 量 的 时 间 
以 及 精力 来 为 这 个 层次 的 消费 者 准备 图 形 。 采 用 JavaFX 的 额外 好 处 是 ， 通 过 鼠标 选项 可 
以 实现 交互 性 。 这 使 得 你 可 以 构造 出 图 形 应 用 ， 它 类 似 于 人 们 所 习惯 的 众多 基于 Web 的 仪 
表盘 。 


























1.6.1 创建 简单 图 形 


在 JavaFX F, Java 自 带 图 形 能 力 。 从 1.8 版 本 起 ， 借 助 于 javafx.scene.chart 包 ， 可 
以 用 多 种 类 型 的 图 表 进行 科学 绘图 ， 例 如 散 点 图 、 折 线 图 、 条 形 图 、 堆 县 条 形 图 、 饼 图 、 
面积 图 、 堆 县 面积 图 或 者 气泡 图 。Stage 对 象 包含 Scene HA, Scene 对 和 象 包含 Chart 对 
象 。 一 般 形式 是 采用 Application 扩展 可 执行 的 Java 类 ， 并 把 所 有 绘制 命令 放 在 重 写 的 
Application.start() 方法 中 。 必 须 在 main 方法 中 调用 Application.launch() 方 法， 以 创 
建 并 显示 图 表 。 


1. 散 点 图 的 绘制 

简单 绘图 的 一 个 例子 是 散 点 图 ， 它 把 一 系列 x-y 对 的 数字 绘制 成 网 格 上 的 点 。 这 些 图 利 
用 了 javafx.scene.chart.XYChart.Data 与 javafx.scene.chart.XYChart.Series 两 个 类 。 
Data 类 是 容器 ， 它 可 容纳 任何 规模 的 混合 类 型 的 数据 ，Series 类 包含 内 容 为 Data 实例 的 
ObservableList。 在 javafx.collections.FXCollections 类 中 有 一 些 工厂 方法 ， 如 果 愿 意 的 
话 ， 可 以 用 这 些 方 法 直接 创建 0bservableList 的 实例 。 不 过 ， 对 于 散 点 图 、 折 线 图 、 面 积 
图 、 气 泡 图 以 及 条 形 图 ， 这 是 不 必要 的 ， 因 为 它们 都 利用 了 Series 类 。 












































































































































public class BasicScatterChart extends Application { 


public static void main(String[] args) { 
Launch(args); 


} 


@Override 

public void start(Stage stage) throws Exception { 
int[] xData = {1, 2, 3, 4, 5}; 
double[] yData = {1.3, 2.1, 3.3, 4.0, 4.8}; 


/* 将 Data 添 加 到 Series 中 */ 

Series series = new Series(); 

for (int i = 0; i < xData.length; i++) { 
series.getData().add(new Data(xData[i], yData[i])); 


} 
/* 定义 坐标 轴 */ 


NumberAxis xAxis = new NumberAxis(); 
xAxis.setLabel("x"); 
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NumberAxis yAxis = new NumberAxis(); 
yAxis.setLabel("y"); 








/* 创建 散 点 图 */ 

ScatterChart<Number ,Number> scatterChart = 
new ScatterChart<>(xAxis, yAxis); 

scatterChart.getData().add(series); 











/* 采用 图 创建 场景 */ 


Scene scene = new Scene(scatterChart, 800, 600); 








/* 告诉 舞台 (stage) 采用 什么 场景 (scene) 并 对 其 进行 绘制 */ 
stage.setScene(scene) ; 
stage.show(); 








} 
1-1 是 用 JavaFX 绘制 简单 数据 集 后 的 默认 
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1-1: 散 点 图 示例 


在 前 面 的 例子 中 ， 可 以 方便 地 采用 LineChart、AreaChart 或 者 BubbleChart 类 替换 ScatterChart 
类 。 





2. 条 形 图 





作为 x-y 图 条 形 图 利用 了 Data 与 Series 类 。 然 而 ， 在 这 种 情况 下 ， 唯 一 的 区 别 是 ， 
x 轴 必 须 是 字符 串 类 型 (而 不 是 数值 类 型 )， 并 且 利 用 CategoryAxis 类 ， 而 不 是 NumberAxis 
X. y 轴 仍 然 利 用 NumberAxis 类 。 通 常 ， 条 形 图 的 分 类 就 像 一 周 中 的 每 一 天 ， 或 者 市 场 的 
细 分 。 注 意 ，BarChart 类 内 部 采用 的 是 (String, Number) 对 的 类 型 ， 














用 的 〈 第 3 章 会 展示 一 个 直方 图 )。 
public class BasicBarChart extends Application { 
public static void main(String[] args) { 


launch(args); 
} 


@Override 
public void start(Stage stage) throws Exception { 




















这 对 生成 直方 图 是 有 





String[] xData = {"Mon", "Tues", "Wed", "Thurs", "Fri"}; 


double[] yData = {1.3, 2.1, 3.3, 4.0, 4.8}; 


/* 把 Data 添 加 到 Series 中 */ 
Series series = new Series(); 
for (int i = 0; i < xData.length; i++) { 


series.getData().add(new Data(xData[i], yData[i])); 


} 
/* 定义 坐标 */ 


CategoryAxis xAxis = new CategoryAxis(); 
xAxis.setLabel("x") 

NumberAxis yAxis = new NumberAxis(); 
yAxis.setLabel("y") 


/* 创建 条 形 图 */ 


BarChart<String,Number> barChart = new barChart<>(xAxis, yAxis); 


barChart.getData().add(series); 














/* 采用 图 创建 场景 */ 


Scene scene = new Scene(barChart, 800, 600); 

















/* 告诉 舞台 (stage) 采用 什么 场景 (scene) Fer Hk T 
stage.setScene(scene) ) ; 
stage.show(); 


} 
3. 绘制 多 个 系列 
可 以 很 容易 地 实现 对 任何 图 形 类 型 的 多 个 系列 进行 绘制 。 对 于 散 点 
ZA Series 实例 ; 




















会 制 */ 





RI 











的 示例 ， 只 需要 创建 
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Series series1 = new Series(); 
Series series2 = new Series(); 
Series series3 = new Series(); 


然后 ， 用 addALL() 方法 ， 而 不 是 用 add() 方法 ， 可 以 一 次 添加 所 有 这 些 系列 : 
scatterChart.getData().addAll(series1, series2, series3); 

从 所 产生 的 图 中 可 以 看 出 ， 这 些 点 以 各 种 颜色 重 琶 在 一 起 ， 每 一 种 颜色 以 各 自 的 图 例 来 指 

示 其 标签 名 。 这 对 于 折线 图 、 面 积 图 、 条 形 图 、 气 泡 图 同样 适用 。 对 于 StackedAreaChart 

与 StackedBarChart 这 两 个 类 ， 它 们 的 一 个 特点 值得 我 们 关注 ， 那 就 是 除了 一 个 数据 是 


堆 县 在 另 一 个 数据 之 上 的 ， 以 免 在 视觉 上 相互 遮挡 外 ， 它 们 运行 的 方式 与 其 各 自 的 超 类 
AreaChart 和 BarChart 相同 。 














当然 ， 有 时 候 ， 采 用 多 种 类 型 的 图 对 数据 进行 混合 绘制 ， 可 视 化 效果 会 更 好 ， 例 如 对 同一 
数据 同时 采用 散 点 图 与 折线 图 。 当 前 ，Scene 类 只 接受 同一 种 类 型 的 图 表 。 不 过 ， 本 章 随 
后 将 给 出 一 些 变 通 方 法 。 


4. 基本 格式 
有 一 些 有 用 的 选项 ， 可 以 使 图 看 起 来 更 专业 。 首 先 需要 清理 的 地 方 可 能 是 坐标 轴 。 通 常 ， 
刻度 线 太 小 会 适得其反 。 也 可 以 通过 设置 最 小 值 与 最 大 值 来 界定 图 的 范围 。 
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scatterChart.setBackground(null); 
scatterChart.setLegendVisible(false); 
scatterChart.setHorizontalGridLinesVisible(false); 
scatterChart.setVerticalGridLinesVisible(false); 
scatterChart.setVerticalZeroLineVisible(false); 


在 某 个 阶段 ， 保 持 绘制 方法 简洁 ， 并 把 所 有 样式 说 明 包 含 在 CSS ( 层 倒 样式 表 ) 文件 中 ， 


也 许 会 更 容易 一 些 。JavaFX 8 中 默认 的 CSS 称 作 Modena， 若 不 修改 样式 选项 ， 则 会 应 用 
Modena 文件 。 也 可 以 创建 自己 的 CSS， 并 采用 下 面 的 方法 将 其 包含 在 场景 





scene.getStylesheets().add("chart.css"); 


默认 路 径 是 自己 Java 包 的 src/main/resources 目录 。 





16.2 ”混合 类 型 图 的 绘制 

我 们 经 常 想 要 在 同一 个 图 形 中 显示 多 个 不 同类 型 的 图 。 例 如 ， 有 时 需要 把 数据 点 显示 为 
xy 散 点 图 ， 然 后 在 散 点 图 上 和 覆盖 一 个 采用 最 佳 拟 合 模 型 产生 的 折线 图 。 也 许 还 想 在 图 中 
包含 另外 两 条 折线 ， 用 以 表示 模型 的 边界 ， 可 能 是 一 倍 、 两 倍 或 三 倍 的 标准 差 o。， 也 可 能 
是 置信 区 间 1.96 x ac。 目 前 ，JavaFX 不 允许 在 同一 场景 中 同时 显示 多 个 不 同类 型 的 图 。 不 
过 ， 有 个 变通 方法 : 可 以 用 Linechart 类 绘制 多 个 系列 的 Linechart 实例 ， 然 后 用 CSS iz 
置 其 样式 为 : 第 一 条 折线 只 显示 点 ， 第 二 条 折线 只 显示 实 线 ， 再 有 两 条 折线 只 显示 虚线 。 
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CSS 如 下 : 


.default-color0.chart-series-line { 
-fx-stroke: transparent; 


} 


.default-color1.chart-series-line { 
-fx-stroke: blue; -fx-stroke-width: 1; 


} 


.default-color2.chart-series-line { 
-fx-stroke: blue; 
-fx-stroke-width: 1; 
-fx-stroke-dash-array: 1 4 1 4; 

} 


.default-color3.chart-series-line { 
-fx-stroke: blue; 
-fx-stroke-width: 1; 
-fx-stroke-dash-array: 1 4 1 4; 

} 


/*.default-color0.chart-Lline-symbol { 
-fx-background-color: white, green; 


}*/ 


.default-color1.chart-line-symbol { 
-fx-background-color: transparent, transparent; 


} 


.default-color2.chart-line-symbol { 
-fx-background-color: transparent, transparent; 


} 


.default-color3.chart-line-symbol { 
-fx-background-color: transparent, transparent; 


} 


绘图 如 图 1-2 所 示 。 
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x vs. f(x) 





exp(-xsA2/2)cos(x) 














1-2: 采用 CSS 实现 混合 折线 类 型 的 绘制 


1.6.3 ”把 图 存 入 文件 

毫 无 疑问 ， 有 了 时候 需 要 把 图 存 入 文件 中 。 你 也 许 会 在 电子 邮件 中 发 送 该 图 ， 或 者 把 它 包 含 
在 演示 文稿 中 。 综 合 采 用 标准 Java 类 与 JavaFX 类 ， 可 以 很 容易 地 以 任何 格式 保存 图 。 采 
用 CSS， 甚 至 可 以 使 所 绘制 的 图 成 为 具有 出 版 质量 的 图 形 。 事 实 上 ， 本 章 (以 及 书 中 其 他 
部 分 ) 的 图 就 是 用 这 种 方式 生成 的 。 


每 一 种 图 表 类 都 是 抽象 类 Chart 的 子 类 ，Chart 从 Node 类 中 继承 了 snapshot() 方法 。 
Chart.snapshot() 方法 返回 WritableImage 类 。 有 个 潜在 的 不 利 因素 需要 指出 : 采用 场景 
将 数据 绘制 到 图 表 上 时 ， 保 存 图 的 文件 中 将 不 会 有 该 图 上 的 实际 数据 。 在 实例 化 图 表 之 
后 ， 在 采用 Chart.getData.add() 或 其 他 等 效 方法 把 数据 添加 到 图 表 之 前 ， 通 过 Chart. 
setAnimated(false) 关 掉 动画 是 极其 重要 的 。 




























































































/* 把 图 表 实 例 化 之 后 ， 立 刻 进行 该 操作 */ 
scatterChart.setAnimated(false); 














/* 绘制 图 片 */ 


stage.show(); 





























/* 绘制 舞台 之 后 ， 再 把 图 保存 到 文件 中 */ 

WritableImage image = scatterChart.snapshot(new SnapshotParameters(), null); 
File file = new File("chart.png"); 
ImageI0.write(SwingFXUtils.fromFXImage(image, null), "png", file); 











Rİ 











本 书 中 的 所 有 数据 图 都 是 采用 JavaFX 8 绘制 的 。 
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第 2 章 


线性 代数 








前 面 已 经 用 一 整 章 的 篇 幅 讨论 了 以 某 种 格式 获取 数据 。 我 们 很 可 能 要 以 电子 表格 的 形式 查 
看 数据 。 我 们 自然 可 以 预想 一 下 表格 中 每 一 列 的 名 称 ， 例 如 从 左 向 右 分 别 是 年 龄 、 地 址 、 
ID 号 等 。 表 格 中 的 每 一 行 代 表 一 条 唯一 的 记录 或 数据 点 。 数 据 科学 中 的 许多 数据 就 是 以 这 
种 格式 呈现 的 。 我 们 所 要 寻找 的 是 ， 想 要 关注 的 任意 数量 的 列 [ 称 为 变量 (variable)] 与 
表示 可 度量 结果 的 任意 数量 的 行 [ 称 为 响应 (response)] 之 间 的 关系 。 



































通常 ， 字 母 x 表示 变量 ， 字 母 y 表示 响 应 。 同 样 ， 响 应 可 以 用 和 矩阵 了 表示 ， 它 的 列 数 为 p， 
并 且 p 必须 与 矩阵 头 的 行 数 m 相同 。 注 意 ， 在 很 多 情况 下 ， 只 有 一 维 的 响应 变量 ， 即 p = 1。 
不 过 ， 可 以 把 线性 代数 问题 推广 到 任意 维 。 

一 般 来 说 ， 线 性 代数 背后 的 主要 思想 是 寻找 关 与 了 之 间 的 关系 。 这 些 关 系 之 中 最 简单 的 情 
形 是 ， 是 否 可 以 用 新 的 待定 值 和 矩阵 所 去 乘 头 ， 且 使 结果 准确 地 (或 近似 地 ) 等 于 了 。 下 面 
Æ XW = Y WAF. 





Xa %2 Xin | Os o Op V ite ) 1 
Wa 7 NE e | Or — Orgs O orem Cl 
ol Xn,2 E Xn Ca QO, 2 ke QD,» Yma Ym2 oa Vap 


注意 ， 等 式 中 给 出 的 矩阵 大 小 看 上 去 差不多 ， 这 会 造成 误导 ， 因 为 大 多 数 情况 下 ， 数 据点 
的 数目 m 很 大 ， 可 能 是 几 百 万 或 儿 十 亿 ， 而 矩阵 头 与 矩阵 了 各 自 的 列 数 n、p 通常 很 小 
( 儿 十 到 几 百 )。 接 下 来 需要 引起 注意 的 是 ， 无 论 m 有 多 大 (例如 100 000)， 和 矩阵 W HIK 
小 都 与 m 的 大 小 无 关 ， 它 的 大 小 是 n x p 【例如 10 x 10)。 这 就 是 线性 代数 的 核心 ， 我 们 
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可 以 采用 紧凑 得 多 的 数据 结构 丈 来 解释 非常 大 的 数据 结构 的 内 容 ， 例 如 时 与 也 线性 代 
数 的 规则 使 得 我 们 可 以 根据 兰 的 一 行 与 所 的 一 列 来 表示 了 中 任意 特定 的 值 。 例 如 ，y | 的 
值 可 以 用 下 式 表 示 : 

















p11 5 X1,1@1,1 FXO. pb FX On 


本 章 余下 内 容 将 讨论 线性 代数 的 规则 与 运算 ,最 后 一 市 会 给 出 线性 系统 XX 开 = 了 的 解 。 数 据 
科学 中 更 高 级 的 话题 ， 比 如 第 4 章 与 第 5 章 给 出 的 那些 ， 在 很 大 程度 上 依赖 于 线性 代数 。 


2.1 构造 问 量 和 德 阵 


不 论 采 用 哪 种 形式 的 定义 ,向 量 (vector) 就 是 给 定 维 数 ' 的 一 维 数组 ”, 可 以 举 出 很 多 例子 。 
比如 整 型 数组 ， 表 示 Web 指标 每 天 的 值 。 再 比如 存在 大 量 “ 特 征 ” 的 数组 ， 该 数组 将 作为 
机 器 学 习 例 程 的 输入 。 人 例如 x 与 y， 可 以 为 每 个 [x，y] 对 创建 数 
组 。 虽 然 可 以 从 哲学 角度 讨论 向 量 ( 即 向 量 空间 中 具有 大 小 与 方向 的 元 素 ) 的 实际 含义 是 
什么 ， ny 对 向 量 的 定义 保持 一 致 ， 就 可 以 很 好 地 使 用 所 有 数 
学 公式 ， 不 需要 关心 它 的 哲学 意 》 


一 般 来 说 ， 向 量 x 具有 以 下 的 形式 ， 它 由 个 分 量 构 成 。 

















X= (X1 X2 Xn) 


HE, FEM 4 就 是 具有 m 行 与 列 的 二 维 数组 。 





Xia 
x Xz 
Xma 
本 书 中 小 写 黑 和 斜体 字母 表示 向 量 ， 大 写 黑 斜 体 字 母 表 示 和 矩阵 。 注 意 ， 向 量 x 


也 可 以 表示 为 矩阵 立 的 一 个 列 向 量 。 




















El: 此 处 的 维 数 ， 是 从 线性 代数 角度 讨论 向 量 时 ， in 一 一 译 者 注 
注 2: 此 处 指 的 一 维 数组 ， 是 从 数据 结构 、 程 序 设 计 角度 





p 

















译 考 注 
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a 向 量 与 矩阵 对 数据 科学 家 来 说 都 是 有 用 的 。 一 个 常见 的 例子 是 ， 数 据 集 的 CRF 
征 ) 向 量 是 相互 登 加 的 ， 并 且 行 数 m 要 远大 于 列 数 n。 本 质 上 ， 这 种 数据 结构 就 是 一 系列 
RE a 


















































中 遇 到 的 另 一 类 矩阵， 其 元 素 代表 变量 之 间 的 关系 ， 例 如 协 方差 矩阵 或 者 相关 秆 阵 。 


2.1.1 数组 存储 


Apache Commons Math 库 提供 了 使 用 RealVector 类 与 RealMatrix 类 来 创建 实数 向 量 与 实 


BERENS LAE. 


值 数组 来 创建 实例 ; 














3 种 最 有 用 的 构造 方法 分 别 列举 如 下 : 分 配 已 知 维 数 的 空 实 例 ， 根 据 
通过 深度 复制 现存 的 实例 来 创建 另 一 个 实例 。 为 了 实例 化 RealVector 








类 型 的 n 维 空间 量 ， 可 以 采用 具有 整数 维 数 的 ArrayRealVector 类 。 


int size = 3; 


RealVector vector = new ArrayRealVector(size); 


如 果 已 经 有 了 值 数 组 ， 那 么 可 以 通过 把 该 数组 作为 构造 方法 的 参数 来 创建 向 量 


double[] data 


= {1.0, 2.2, 4.5}; 


RealVector vector = new ArrayRealVector (data); 


可 以 对 已 有 向 量 进行 





深度 复制 ， 从 而 创建 新 向 量 的 实例 ”。 





RealVector vector = new ArrayRealVector(realVector); 


若 要 把 向 量 的 所 有 分 量 都 设置 为 默认 值 ， 可 以 在 构造 方法 中 给 出 该 值 ， 同 时 给 出 向 量 包 


大 小 。 


int size = 3; 








double defaultValue = 1.0; 
RealVector vector = new ArrayRealVector(size, defaultValue); 








PERE SE BIC, Jara 2ER TT. ATARA TEID tT EK 2 


阵 进行 实例 化 : 




















int rowDimension = 10; 
int colDimension = 20; 
RealMatrix matrix = new Array2DRowRealMatrix(rowDimension, colDimension) ; 

















或 者 ， 如 果 已 经 有 二 


方法 。 











维 数组 ， 其 中 值 为 double 型 ， 那 么 可 以 把 该 数组 作为 参数 传递 给 构造 





double[][] data = {{1.0, 2.2, 3.3}, {2.2, 6.2, 6.3}, {3.3, 6.3, 5.1}}; 
RealMatrix matrix = new Array2DRowRealMatrix(data); 

















TE 3: 新 向 量 的 元 素 与 





已 有 向 量 对 应 位 置 的 元 素 相 同 。 一 一 译 者 注 
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尽管 没有 方法 把 整个 矩阵 设置 为 默认 值 〈 就 像 向 量 一 样 ) ， 但 是 可 以 先 实例 化 新 矩阵 ， 并 
把 所 有 元 素 设置 为 0， 这 样 随后 就 可 以 很 容易 地 让 每 个 元 素 加 上 同一 值 。 





UD 








int rowDimension = 10; 

int colDimension = 20; 

double defaultValue = 1.0; 

RealMatrix matrix = new Array2DRowRealMatrix(rowDimension, colDimension) ; 
matrix.scalarAdd(defaultValue) ; 


可 以 采用 RealMatrix.copy() 方法 对 矩阵 进行 深度 复制 。 


/* 深度 复制 矩阵 的 内 容 */ 


RealMatrix anotherMatrix = matrix.copy(); 


2.1.2 thet 

对 于 维 数 大 于 50 的 大 矩阵， 推荐 采用 BlockRealMatrix 类 所 实现 的 块 存 储 。 块 存储 是 前 
一 节 讨 论 的 二 维 数组 存储 的 赫 代 方法 。 在 这 种 情况 下 ， 大 移 阵 可 以 划分 为 一 些 较 小 的 数据 
块 ， 从 而 更 加 便于 缓存 和 处 理 。 为 了 给 矩阵 分 配 空间 ， 可 以 采用 下 面 的 构造 方法 : 














RealMatrix blockMatrix = new BlockRealMatrix(50, 50); 





或 者 ， 如 果 已 经 有 二 维 数组 的 数据 ， 那 么 可 以 使 用 下 面 的 构造 方法 “: 











double[][] data = ; 
RealMatrix blockMatrix = new BlockRealMatrix(data) ; 


2.1.3 了 映射 存储 

如 果 有 大 向 量 或 和 矩阵， 其 内 容 几 乎 全 是 零 ， 则 称 为 稀 朴 的 (sparse)。 因 为 存储 所 有 零 是 低 
效 的 ， 所 以 仅 存 储 那些 非 零 分 量 (或 元 素 ) 的 位 置 以 及 值 。 事 实 上， 在 HashMap 中 可 以 很 
容易 地 存储 这 些 值 。 要 创建 已 知 维 数 的 稀 玻 向 量 ， 可 以 采用 下 面 的 方法 : 





























int dim = 10000; 
RealVector sparseVector = new OpenMapRealVector (dim) ; 


SE ae aE, RAIER, 
int rows = 10000; 


int cols = 10000; 
RealMatrix sparseMatrix = new OpenMapRealMatrix(rows, cols); 


2.1.4 访问 元 素 
不 论 底层 采取 何 种 方法 存储 向 量 与 矩阵 ， 对 其 赋值 以 及 随后 获取 值 的 方法 都 是 等 效 的 。 
































FE 4: 以 下 代码 在 实际 使 用 时 应 当 给 出 二 维 数组 的 值 。 一 一 译 者 注 
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虽然 在 本 书 给 出 的 线性 代数 理论 中 ， 索 引 是 从 1 开始 的 ， 但 是 在 Java 语言 中 
索引 是 从 0 开始 的 。 把 算法 从 理论 转变 为 代码 时 ， 要 牢记 这 一 点 ， 尤 其 是 在 
设 定 值 与 获取 值 时 。 











采用 setEntry(int index, double value) 方法 以 及 getEntry(int index) 方法 分 别 设 定 值 
与 获取 值 。 


/* 设 定向 量 v 的 第 一 个 值 */ 
vector.setEntry(0, 1.2) 

/* 再 获取 该 值 */ 

double val = vector.getEntry(0); 




















要 把 向 量 的 所 有 值 设置 为 相同 值 ， 采 用 set(double value) 方法 。 





/* 把 向 量 的 所 有 值 置 为 9 */ 

vector.set(0); 
然而 ， 如 果 v AeA, WAKE REM AIA. TEMPEH, TRAE 
为 0。 只 要 使 用 setEntry 方法 设置 那些 非 零 值 即 可 。 如 果 要 获取 已 有 向 量 中 的 所 有 值 ， 并 
把 它 作为 double 型 数组 ， 那 么 可 采用 toArray() 方法 。 
































double[] vals = vector.toArray(); 


不 论 采 用 何 种 存储 方法 ， 都 同样 存在 针对 和 矩阵 设 定 值 与 获取 值 的 方法 。 可 以 分 别 采 用 
setEntry(int row, int column, double value) 以 及 getEntry(int row, int column) 方法 


如 下 : 


/* 设置 第 一 行 、 第 三 列 的 元 素 为 3.14 */ 
matrix.setEntry(0, 2, 3.14); 

/* 再 获取 该 元 素 */ 

double val = matrix.getEntry(0, 2); 

















与 向 量 的 类 不 同 ， 没 有 set() 方法 可 以 把 矩阵 所 有 元 素 设 置 为 相同 值 。 不 过 ， 就 像 新 构造 
和 矩阵 那样 ， 只 要 甜 阵 的 所 有 元 素 都 设置 为 0， 就 可 以 通过 加 常量 的 方法 把 矩阵 所 有 元 素 设 
定 为 相同 值 ， 代 码 如 下 : 








/* 对 于 已 经 存在 的 新 矩阵 */ 


matrix.scalarAdd(defaultValue); 





正如 稀疏 向 量 那样 ， 把 稀 玻 和 矩阵 的 每 个 57 对 所 对 应 的 元 素 全 部 设置 为 0 是 没有 用 处 的 。 
为 了 以 double 型 数组 的 形式 获得 矩阵 的 所 有 值 ， 可 以 采用 getData() 方法 。 


double[][] matrixData = matrix.getData(); 





2.1.5 ”处 理子 阵 

我 们 经 和 党 只 需要 处 理 矩 阵 的 特定 部 分 ， 或 者 想 把 小 一 些 的 矩阵 包含 在 大 一 些 的 矩阵 之 中 。 
RealMatrix 类 有 几 个 实用 的 方法 来 应 对 这 些 常 见 情况 。 有 两 种 方法 为 已 有 和 抑 阵 创建 它 的 
子 阵 。 第 一 种 方法 是 从 源 和 矩阵 中 选择 矩形 区 域 ， 并 用 这 些 项 创建 新 矩阵 。 选 定 的 矩形 区 
域 是 由 分 别 位 于 源 和 矩阵 左上 角 和 所 包含 区 域 右 下 角 的 两 个 起 点 所 确定 的 ， 它 们 都 包含 在 
选 定 区 域内 。 这 可 以 通过 调用 RealMatrix.getSubMatrix(int startRow, int endRow, int 
startColumn, int endColumn) 方法 来 实现 ， 返 回 RealMatrix 对 象 ， 新 矩阵 (PE) 的 维 数 
和 值 由 选 定 的 区 域 确定 。 注 意 ，endRow 与 endColumn 的 值 包含 在 选 定 区 域 之 内 。 






































double[][] data = {{1,2,3},{4,5,6},{7,8,9}}; 

RealMatrix m = new Array2DRowRealMatrix(data); 

int startRow = 0; 

int endRow = 1; 

int startColumn = 1; 

int endColumn = 2; 

RealMatrix subM = m.getSubMatrix(startRow, endRow, startColumn, endColumn); 


// {{2,3},{5,6}} 


我 们 也 可 以 获得 矩阵 的 指定 行 与 指定 列 。 为 此 ， 可 以 为 行 与 列 分 别 创建 整 型 数组 ， 其 元 素 
表示 想 要 保留 的 行 与 列 的 索引 。 然 后 ， 在 RealMatrix.getSubMatrix(int[] selectedRows, 
int[] selectedColumns) 方法 中 把 这 两 个 数组 作为 参数 ， 于 是 就 有 了 下 面 3 种 应 用 场景 : 











/* 获得 选 定 的 行 与 所 有 列 */ 

int[] selectedRows = {0, 2}; 

int[] selectedCols = {0, 1, 2}; 

RealMatrix subM = m.getSubMatrix(selectedRows, selectedCoLumns) ; 


// {{1,2,3},{7,8,9}} 


/* 获得 所 有 的 行 与 选 定 的 列 */ 

int[] selectedRows = {0, 1, 2}; 

int[] selectedCols = {0, 2}; 

RealMatrix subM = m.getSubMatrix(selectedRows, selectedColumns); 


// {{1,3},{4,6},{7,9}} 


/* 获得 选 定 的 行 与 选 定 的 列 */ 

int[] selectedRows = {0, 2}; 

int[] selectedCols = {1}; 

RealMatrix subM = m.getSubMatrix(selectedRows, selectedColumns); 


// {{2},{8}} 


也 可 以 通过 设置 子 阵 的 值 逐 步 地 创建 矩阵 。 这 可 以 通过 在 RealMatrix.setSubMatrix(double[][] 
subMatrix, int row, int column) 方法 中 传 入 行 与 列 的 位 置 ， 并 向 已 有 移 阵 添加 double 型 
数据 数组 来 实现 。 








double[][] newData = {{-3, -2}, {-1, 0}}; 
int row = 0; 

int column = 0; 

m.setSubMatrix(newData, row, column); 


// {{-3,-2,3},{-1,0,6},{7,8,9}} 
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2.1.6 ”随机 化 

在 机 器 学 习 算 法 中 ， 经 常 需要 把 矩阵 (或 向 量 ) 的 所 有 值 设置 为 随机 数 。 可 以 选择 实现 了 
AbstractRealDistribution 接口 的 统计 分 布 ， 或 者 直接 采用 简易 的 构造 方法 ， 选 择 -1~1 范 
围 内 的 随机 数 。 可 以 把 这 些 值 传 递 给 已 有 和 矩阵 或 者 向 量 ， 也 可 以 创建 新 实例 。 






































public class RandomizedMatrix { 
private AbstractRealDistribution distribution; 


public RandomizedMatrix(AbstractRealDistribution distribution, long seed) { 
this.distribution = distribution; 
distribution. reseedRandomGenerator (seed); 


} 


public RandomizedMatrix() { 
this(new UniformRealDistribution(-1, 1), OL); 


} 


public void fillMatrix(RealMatrix matrix) { 
for (int i = 0; i < matrix.getRowDimension(); i++) { 
matrix.setRow(i, distribution.sample(matrix.getColumnDimension())); 
} 
} 


public RealMatrix getMatrix(int numRows, int numCols) { 
RealMatrix output = new BlockRealMatrix(numRows, numCols); 
for (int i = 0; i < numRows; i++) { 
output.setRow(i, distribution.sample(numCols)); 
} 


return output; 


} 


public void fillVector(RealVector vector) { 
for (int i = 0; i < vector.getDimension(); i++) { 
vector.setEntry(i, distribution.sample()); 
} 
} 


public RealVector getVector(int dim) { 
return new ArrayRealVector (distribution. sample(dim) ); 


} 
} 











可 以 采用 下 面 的 方法 创建 元 素 值 服从 正 态 分 布 的 罕 带 (narrow band) : 




















int numRows = 3; 
int numCols = 4; 
long seed = OL; 
RandomizedMatrix rndMatrix = new RandomizedMatrix( 
new NormalDistribution(0.0, 0.5), seed); 
RealMatrix matrix = rndMatrix.getMatrix(numRows, numCols); 





// -0.0217405716,-0.5116704988, -0.3545966969,0.4406692276 
// 0.5230193567,-0.7567264361,-0.5376075694,-0.1607391808 
// 0.3181005362,0.6719107279,0.2390245133, -0.1227799426 


2.2” 问 量 与 矩阵 的 运算 

你 有 时 对 自己 探索 的 算法 或 数据 结构 有 一 些 构想 ， 但 是 不 能 确定 如 何 实现 。 可 以 在 头脑 中 
做 一 些 “ 智 力 模式 匹配 ”"， 然 后 选择 实现 例如， 是 做 点 积 ， 而 不 是 自己 手动 遍历 所 有 数 
Bi) 。 下 面 就 来 探讨 线性 代数 中 的 一 些 常见 运算 。 


2.2.1 缩放 


用 常数 x 对 向 量 缩放 AR) 的 运算 如 下 : 


























KX = (KX1, KX, °°, KX, 


Apache Commons Math 实现 了 映射 方法 ， 可 以 用 已 有 RealVector 对 象 乘 以 double 型 数 来 
生成 新 RealVector 对 象 。 


double k = 1.2; 
RealVector scaledVector = vector.mapMultiply(k); 


注意 Realvector 对 象 也 可 以 就 地 缩放 ， 方 法 是 永久 修改 已 有 向 量 。 


vector .mapMuLtiplyToSelf(k) ; 

















同样 ， 可 以 用 向 量 除 以 < 来 创建 新 向 量 。 
RealVector scaledVector = vector.mapDivide(k); 
以 下 是 就 地 除法 : 


vector .mapDivideToSelf(k); 


FERE A 也 可 以 用 数 < 来 缩放 。 
Ka Ka, … Ka, 
| Maat Kho on 
Ka, Ky, “Kay, 


ra 


此 处 矩阵 的 每 个 值 都 乘 以 double 型 的 常数 ， 从 而 返回 新 矩阵 。 








double k = 1.2; 
RealMatrix scaledMatrix = matrix.scalarMultiply(k); 
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2.2.2 #8 
对 矩阵 或 向 量 进行 转 置 ( 


transpose ) ， 


类 似 于 把 它 沿 着 从 左上 角 到 右 下 角 的 对 角 线 翻 转 过 





来 。 向 量 x 的 转 置 记 作 x ， 和 矩阵 4 IE 4"。 许 多 情况 下 没有 必要 计算 向 量 的 转 置 ， 





因为 在 实现 时 ，RealVector 类 与 RealMatrix 类 的 方法 已 考虑 了 向 量 转 置 的 需要 。 除 非 向 量 
以 矩阵 形式 表示 ， 否 则 其 转 置 是 未 定义 的 。 于 是 ,za x 1 列 向 量 的 转 置 是 














的 行 向 量 矩 阵 。 








x= (x, Xz °° 


若 确 实 需 要 对 问 量 进行 转 置 ， 
double 型 的 一 


阵 ， 其 值 由 double 型 数组 提供 。 把 列 向 量 进 和 

















double[] data = {1.2, 3.4, 5.6}; 


Xn) 


The BR 








新 的 大 小 为 1 x m 











则 可 以 直接 把 数据 插入 到 ReatMatrix 实例 中 。 采 用 元 素 值 为 
维 数组 作为 参数 ， 提 供给 Array2DRowRealMatrix 类 ， 可 以 创建 m 行 1 列 的 和 矩 
回 1 fT m 列 的 矩阵 。 











RealMatrix columnVector = new Array2DRowRealMatrix(data); 


System.out.println(columnVector); 


/* {{1.2}, {3.4}, {5.6}} */ 


RealMatrix rowVector = columnVector.transpose(); 


System.out.println(rowVector); 


/* {{1.2, 3.4, 5.6}} */ 

















对 m x n 和 矩阵 进行 转 置 ， 结 果 是 n x m 和 矩阵。 简单 来 说 ， 


交换 。 
Ay, 4021 
Pi A Az» 
Ain Azn 


WE IEPER E S FRB IL ar FEF 





double[][] data = {{1, 2, 3}, {4, 5, 6}}; 


RealMatrix matrix = new Array2DRowRealMatrix(data); 


RealMatrix transposedMatrix = matrix.transpose(); 


/* {{1, 4}, {2, 5}, {3, 6}} */ 


2.2.3 Mam 


两 个 维 数 都 为 n 的 向 量 a 与 b 相 加 ， 产 生 了 维 数 为 n 的 向 


的 分 量 进 行 相 加 。 


at+b=(a,+b, a + b, 7, 














其 结果 是 新 的 Realvector 实例 : 


就 是 把 行 与 列 的 索引 i 与 j 互相 





ral 
= 


其 值 等 于 两 个 向 量 索 引 相同 











E, ZN 





a, + b,) 





RealVector aPLusB = vectorA.add(vectorB); 


同样 ， 两 个 维 数 为 n 的 RealVector 对 象 相 减 结果 如 下 : 





a—b=(a—b, ay — by, ae a, — b,) 














这 会 返回 新 的 RealVector 对 象 ， 其 值 是 两 个 向 量 索 引 相同 的 分 量 相 减 。 
RealVector aMinusB = vectorA.subtract(vectorB); 


AUF ial, FATA EB te T DAE FT ibs GE, 














a +b, a+b a, +5, 

a, +b. a, +b. a,,+b 

21 7 921 2,2 © 99 2 > 
A 一 B = > . > > } > n i nN 
Amı pa baa Am2 ae Dao cy Ann oi Dan 





RealMatrix 对 象 4 与 妃 进 行 加 减 运 算 ， 返 回 新 的 RealmMatrix 实例 。 


RealMatrix aPLusB = matrixA.add(matrixB); 
RealMatrix aMinusB = matrixA.subtract(matrixB); 


2.2.4 KE 

向 量 长 度 (length) 是 把 向 量 所 有 分 量 归纳 为 一 个 数值 的 一 种 简便 方法 ， 但 是 不 要 与 向 量 
维 数 混淆 。 现 在 有 儿 种 向 量 长 度 的 定义 ， 最 常用 的 两 种 是 L1 范 数 与 L2 eee. HA, L1 
范 数 可 用 于 确保 概率 向 量 或 者 某 些 分 数 的 所 有 值 总 和 为 1。 


n 
b= 2h 
i=l 


LI Wea L2 WAH, ALAA “LI 范 数 ”来 表示 ， 以 避免 歧义 。 























double norm = vector.getLiNorm(); 











L2 范 数 通常 用 于 对 向 量 归 一 化 ， 大 多 数 时 候 被 称 作 范 数 (norm) 或 者 向 量 大 小 (magnitude), 


kl- Sisk 


/* 计算 向 量 的 L2 范 数 */ 


double norm = vector.getNorm(); 
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人 们 经 常 问 何 时 使 用 LI1 向 量 长 度 或 L2 向 量 长 度 。 实 际 中 ， 这 取决 于 向 量 代 
表 什么。 在 一 些 场合 中 ， 需 要 将 计数 或 者 概率 收集 到 向 量 中 。 此 时 ， 需 要 把 
每 个 分 量 除 以 各 个 分 量 的 总 和 ， 以 对 向 量 进行 归 一 化 (L1)。 另 一 方面 ， 若 
向 量 包含 某 种 坐标 或 者 特征 ， 则 会 用 向 量 的 欧 氏 距离 对 其 进行 归 一 化 (L2)。 


























向 量 与 其 对 应 的 单位 向 量 (unit vector) 所 指 方向 相同 。 因 为 已 经 通过 L2 范 数 将 其 长 度 缩 
放 至 1， 所 以 它 称 为 单位 向 量 ， 通 常 记 作 浆 ， 计 算 公式 如 下 : 


x 


f= 
[sl 
RealVector.unitVector() 方法 返回 新 的 RealVector 对 象 。 


/* 创建 新 向 量 ， 它 是 某 向 量 实例 的 单位 向 量 */ 


RealVector unitVector = vector.unitVector(); 





向 量 还 可 以 通过 就 地 缩放 成 为 单位 向 量 。 向 量 " 可 以 通过 下 面 的 方法 永久 地 转换 成 自己 的 
单位 向 量 : 


/* 把 向 量 就 地 转换 为 单位 向 量 */ 


vector .unitize(); 








也 可 以 通过 Frobenius 范 数 计算 矩阵 的 范 数 。Frobenius 范 数 在 数学 上 表示 为 所 有 元 素平 方 
和 的 平方 根 。 





M= Ela) 
在 Java 中 ， 这 可 以 通过 下 面 的 方法 得 到 : 


double matrixNorm = matrix.getFrobeniusNorm(); 


2.2.5 “距离 


可 以 用 几 种 方式 计算 任意 两 个 向 量 a 与 5 之 间 的 距离 。 向 量 4 与 向 量 5 之 间 LI1 距离 的 表 
达 式 如 下 : 











n 


dye 


i=l 





a, —b, 


double liDistance = vectorA.getLiDistance(vectorB); 


L2 距离 (也 称 作 欧 氏 距离 ) 的 表达 式 如 下 : 








癌 量 之 间 的 距离 较为 常见 的 计算 方式 是 L2 FEBS. Vector.getDistance(RealVector vector) 
方法 可 以 返回 欧 氏 距离 。 


double l2Distance = vectorA.getDistance(vectorB); 




















余弦 距离 (cosine distance) 是 位 于 -1~l 范围 内 的 度量 ， 它 与 其 说 是 距离 指标 ， 不 如 说 是 
“相似 性 ”度量 。 若 4 = 0， 则 两 个 向 量 是 正 交 的 (没有 任何 共同 点 )。 若 4d = 1， 则 两 个 向 
量 指向 同一 方向 。 若 & = -1， 则 两 个 向 量 指向 完全 相反 的 方向 。 余 弦 距离 也 可 以 看 作 两 个 
单位 向 量 的 点 积 。 





a-b 
d= 0) = ——_ 
ET Lal 


double cosineDistance = vectorA.cosine(vectorB); 
fia 与 是 单位 向 量 ， 则 余弦 距离 恰好 就 是 它们 的 内 积 。 
d=cos(6) =0 
Vector .dotProduct(RealVector vector) 方法 可 以 计算 点 积 。 
/* 对 于 单位 向 量 a 与 5 */ 
vectorA.unitize(); 


vectorB.unitize(); 
double cosineDistance = vectorA.dotProduct(vectorB) ; 


2.2.6 tHe 
m x n 和 矩阵 4 与 4 x pE B+R, 得 到 m x p FARE, Heh, ME— U ACA AERE n, 
也 就 是 4 的 列 数 与 B 的 行 数 。 


(4B), (AB), , (4B), , 
rA (48), (48), (48),, 
(48),, (AB), = (4B), 


元 素 (AB), 的 值 是 4 的 第 i 行 每 个 元 素 与 B 的 第 j 列 每 个 元 素 的 乘积 之 和 ， 数 学 表达 式 如 下 : 


(4B), = È anby 
k=1 
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JERE A WERE B 的 结果 可 以 由 下 面 的 代码 得 到 : 











RealMatrix matrixMatrixProduct = matrixA.multiply(matrixB); 
注意 4B + BA, BA 可 以 显 式 地 计算 ， 也 可 以 采用 左 乘 (preMultiply) 方法 ， 两 种 方法 结 
果 相 同 。 然 而 在 这 种 情形 下 ， 注 意 B 的 列 数 必须 与 4 的 行 数 相同 。 


/* 显 式 计算 B4 */ 


RealMatrix matrixMatrixProduct matrixB.multiply(matrixA); 


/* 采用 左 乘 (premultiply) 方法 计算 B4 */ 


RealMatrix matrixMatrixProduct = matrixA.preMultipLy(matrixB) ; 





和 矩阵 相 乘 也 常用 于 m x on FRE A Bon x 1 列 向 量 x 的 相 乘 ,结果 是 m x ab, BN 
Ax = b。 通 过 把 4 EER i THETIC SIA Ee x 的 每 个 元 素 相 乘 ， 然 后 求 和 ， 可 以 完成 
Zieh, AREA IEAM T : 























AX FA Xa Fe + AX, 
a, X A, 4X. seta, Xx 
AT 222 2,nn 
Ax = 
Am1% T am 2X2 PRE am, nÝn 





a 


下 的 代码 与 前 面 的 矩阵 与 矩阵 相 乘 相 同 。 


/* Ax 的 结果 是 列 向 量 */ 


RealMatrix matrixVectorProduct = matrixA.multiply(columnVectorX); 














我 们 经 常 需要 计算 向 量 与 矩阵 的 乘积 ， 通 常 记 作 xx4。 当 x 是 矩阵 形式 时 ， 可 以 按 下 面 的 
方法 显 式 地 完成 该 计算 。 
/* 显 式 计算 x'4 */ 


RealMatrix vectorMatrixProduct = columnVectorX.transpose().multiply(matrixA); 














若 x 是 RealVector 对 象 ， 则 可 以 用 RealMatrix.preMultiply() 方法 来 计算 。 


/* 采用 左 乘 方法 (premultiply) 计算 x-4 */ 

RealMatrix vectorMatrixProduct = matrixA.preMuLltiply(coLlumnVectorx); 
进行 Ax 运算 时 ， 通 常 希望 结果 是 向 量 (而 不 是 矩阵 中 的 一 个 列 向 量 )。 若 x 是 RealVector 
类 型 ， 则 完成 4x 运算 更 方便 的 方式 如 下 : 





/* Ax */ 
RealVector matrixVectorProduct = matrixA.operate(vectorX); 


2.2.7 ”内 积 
内 积 (inner product， 也 称 作 点 积 或 标量 积 ) 是 一 种 计算 两 个 相同 维 数 向 量 乘积 的 方法 ， 其 








| ee 
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结果 是 标量 值 ， 在 数学 表达 式 中 用 两 个 向 量 之 间 的 圆 点 来 表示 。 


a-b= Sab, 
i=l 





对 于 Realvector 对 象 vectorA 与 vectorB， 点 积 计算 如 下 : 


double dotProduct = vectorA.dotProduct(vectorB); 





EEEE, SU AT ASR ITE, LEKRA a: b= ab， 其 中 等 号 左 侧 是 点 
R, AMEER, 








列 向 量 a 5 b RAER, RE 1 x 14, 


/* matrixA 与 natrixB 都 是 m x 1 的 列 向 量 */ 
RealMatrix innerProduct = matrixA.transpose().multiply(matrixB); 


/* 计算 结果 保存 在 矩阵 的 唯一 元 素 中 */ 
double dotProduct = innerProduct.getEntry(0,0); 


a cAi FP 


GAPE, UES AEE ae A) EI BASRA, (B BA T a Aa FZ 
间 的 一 种 重要 关系 。 








2.2.8 外 积 
m 维 向 量 a 与 维 向 量 5 的 外 积 (outer product) 返回 m x n 的 新 矩阵 。 


Aa ab aba ss abin 

pT a21 E EEEE a, bı a,b, 5 ae yD, 
a 11 71,2 Ln 

a 4,19, anba ry ADs, 

















注意 ab 的 结果 是 m x n 矩阵， 且 不 等 于 ba ， 后 者 的 结果 是 n x m FEE, Realmatrix. 
outerProduct() 方法 保持 了 这 种 顺序 ， 它 返回 具有 适当 大 小 的 Realmatrix 实例 。 





/* 向 量 4 与 向 量 p 的 外 积 * 


RealMatrix outerProduct = vectorA.outerProduct(vectorB); 


若 向 量 是 矩阵 形式 ， 则 可 以 改 为 用 RealMatrix.multiply() 计算 外 积 。 
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/* matrixA 与 natrixB 都 是 x x 1 的 列 向 量 */ 
RealMatrix outerProduct = matrixA. nuletotyimstrie transpose 


2.2.9 逐 项 积 


逐 项 积 也 称 作 Hadamard 积 或 者 Schur 积 。 逐 项 积 是 把 问 量 的 每 个 分 量 与 男 一 向 量 的 对 应 分 
量 相 滋 ， 两 个 向 量 必须 有 相同 的 维 数 ， 所 产生 的 结 吉 果 向 量 也 有 着 与 这 两 个 向 量 相 同 的 维 数 。 

















ae b = (aib, yb, 7, a,b) 














RealVector .ebeMultiply(RealVector) 方法 可 以 完成 这 个 运算 ， 其 中 ebe 是 逐 项 (element 
by element) 的 缩写 。 


/* 计算 向 量 4 与 向 量 bp 的 逐 项 积 */ 


RealVector vectorATimesVectorB = vectorA.ebeMultiply(vectorB); 
采用 RealVector .ebeDivision(RealVector) 方法 可 以 完成 类 似 的 和 逐 项 除 运 算 。 


不 要 将 逐 项 积 与 矩阵 积 混 靖 (包括 内 积 与 外 积 )。 在 多 数 算法 中 需要 和 矩阵 积 。 
然而 ， 逐 项 积 也 会 有 派 上 用 场 的 时 候 ， 比 如 需要 把 向 量 用 另 一 权 值 向 量 进行 
缩放 时 。 











目前 ， 在 Apache Commons Math 和 珑 阵 乘法 中 ， 并 没有 实现 Hadamard 积 。 但 是 ， 用 下 面 的 
简单 方法 可 以 很 容易 地 实现 它 


public class MatrixUtils { 


public static RealMatrix ebeMultiply(RealMatrix a, RealMatrix b) { 

int rowDimension = a.getRowDimension(); 

int columnDimension = a.getColumnDimension(); 

RealMatrix output = new Array2DRowRealMatrix(rowDimension, 
coLumnDimension) ; 

for (int i = 0; i < rowDimension; i++) { 
for (int j = 0; j < columnDimension; j++) { 

output.setEntry(i, j, a.getEntry(i, j) * b.getEntry(i, j)); 

} 


} 


return output; 


} 





可 以 像 下 面 这 样 实 现 Hadamard 积 : 


/* matrixA 与 natrixB 的 逐 项 积 * 
RealMatrix hadamardProduct = MatrixUtils.ebeMultiply(matrixA, matrixB); 





2.2.10 复合 运算 
我 们 会 经 常 遇见 涉及 多 个 向 量 与 矩阵 的 复合 形式 ， 例 如 xx， 它 将 产生 单一 的 标量 值 。 有 时 
成 块 地 计算 是 方便 的 ， 甚 至 可 以 不 按 顺 序 计算 。 在 这 种 情况 下 ， 可 以 首先 计算 向 量 v = Ax, 
然后 计算 点 积 〈 内 积 ) xv 














double[] xData = {1, 2, 3}; 

double[][] aData = {{1, 3, 1}, {0, 2, 0}, {1, 5, 3}}; 
RealVector vectorX = new ArrayRealVector(xData) ; 
RealMatrix matrixA = new Array2DRowRealMatrix(aData) ; 
double d = vectorX.dotProduct(matrixA.operate(vectorX)); 
// d = 78 





另 一 个 方案 是 首先 调用 Realmatrix.premultiply() Wis, MAHERE, PR tPA 
个 向 量 的 内 积 (点 积 )。 





double d = matrixA.premuLltiply(vecotrX).dotProduct(vectorx) ; 
// d = 78 


E mE APE ISK, UU RT A ae AE ies TEE AR hr RB 








RealMatrix matrixX = new Array2DRowRealMatrix(xData) ; 

/* 结果 是 1 x 1 的 和 矩阵 */ 

RealMatrix matrixD = matrixX.transpose().multiply(matrixA) .multiply(matrixx); 
d = matrixD.getEntry(0, 0); // 78 


2.2.11 仿 射 变换 
一 个 常见 的 操作 是 对 向 量 x 进行 变换 ， 首 先 用 p x n PRERE A ARER n 的 向 
量 x， 再 加 上 维 数 为 p 的 平移 向 量 b， 它 们 的 关系 如 下 : 


f(x) =Ax +b 


这 种 变换 称 作 仿 射 变换 (affine transformation). WAER, AAS z = fx)， 把 向 量 x 移 
动 到 另 一 侧 ， 定 义 W=A", Wn x p HERE, MMA TA: 





z =x W+b" 


在 学 习 与 预测 算法 中 ， 尤 其 可 以 看 到 大 量 的 这 种 形式 。 重 要 的 是 要 注意 到 ，x 是 一 次 观测 
得 到 的 一 个 多 维 向 量 ， 而 不 是 许多 次 观测 得 到 的 一 维 向 量 。 展 开 后 的 表达 式 如 下 : 











a) a> Ea Op 
Oi 0 U Dy, 

(2.282 )= (oo x,) . = +2 Ba B,) 
, 1 ,2 a Op 
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m x n 条 阵 头 的 仿 射 变换 也 可 以 表示 如 下 : 
Z=XW+B 


B 是 m x pE, 


Xl %2 Xn | Or O2 OO By Bo a Bip 
J2 Ya Ya XD, Wo Pa bs On 7 Pa, Baa ld Ba 
Xm Xn,2 pve Xn Ol 只 > ae Op Baa Bro aad Bap 


大 多 数 情况 下 ， 我 们 希望 平移 矩阵 的 每 一 行 与 向 量 b。 (ARA p) 相同 ， 于 是 表达 式 如 下 : 


Z=XW+hb' 














其 中 有 是 维 数 为 m 的 列 向 量 ， 每 个 分 量 为 1。 注 意 这 两 个 向 量 的 外 积 生成 m x pIE, i 
开 之 后 ， 表 达 式 如 下 : 


11 X12 Xin | M1 Az Op 1 
x x x M, @ (0 1 
mal aS 2,2 2,n 21 22 2,p 
| "|. Hl (BBB) 
Xn, Xn vk Xm,n Ol O, 2: Orp 1 


该 功能 非常 重要 ， 因 此 在 MatrixOperations 类 中 进行 了 实现 。 





public class MatrixOperations { 
public static RealMatrix XWplusB(RealMatrix x, RealMatrix w, RealVector b) { 


RealVector h = new ArrayRealVector(x.getRowDimension(), 1.0); 
return x.muLltiply(w).add(h.outerProduct(b)); 


2.2.12 ”映射 函数 
我 们 通常 需要 在 向 量 z 的 内 容 上 映射 函数 og， 结果 是 与 z 维 数 相 同 的 新 问 量 yo 





y=9 (2) 
Commons Math API 中 包含 RealVector .map(UnivariateFunction function) 方法 ， 它 可 以 完 
成 上 述 功 能 。Commons Math 中 包含 了 大 多 数 标 准 函 数 以 及 其 他 一 些 有 用 的 函数 ， 它 们 实 
现 了 UnivariateFunction 接口 ， 可 以 采用 下 面 的 方法 调用 : 








// 在 向 量 input 上 映射 函数 exp， 产 生 新 的 向 量 output 
RealVector output = input.map(new Exp()); 














| ee 
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对 于 那些 Commons Math 中 没有 包括 的 函数 形式 ， 可 以 直接 创建 自己 的 UnivariateFunction 
类 。 注 意 map 方法 不 更 改 输 入 向 量 ， 若 想 对 输入 向 量 进行 就 地 更 改 ， 则 要 使 用 下 面 的 方法 : 


// 在 向 量 input 上 映射 函数 exp， 从 而 修改 它 的 值 
input.mapToSelf(new Exp()); 





在 有 些 场 合 , 需要 将 一 元 尔 数 应 用 到 甜 阵 的 每 个 元 素 。 为 此 , Apache Commons Math API 提 
供 了 一 种 简洁 的 方法 ， 即 使 是 稀疏 矩阵 ， 这 种 方法 也 可 以 有 效 地 工作 ， 这 就 是 RealMatrix. 
walkInOptimizedOrder(RealMatrixChangingVisitor visitor) 方法 。 请 注意 ， 还 有 其 他 选项 ， 
可 以 按照 行 或 列 的 顺序 遍历 矩阵 的 每 个 元 素 ， 这 对 于 某 些 运算 是 有 用 的 〈 或 者 是 必需 的 )。 
不 过 ， 若 只 想 独 立地 更 新 矩阵 的 每 个 元 素 ， 则 使 用 优化 顺序 是 最 有 适应 能 力 的 算法 ， 因 为 
它 适用 于 采用 二 维 数组 、 块 或 稀 纹 存储 的 矩阵 。 首 先 创建 扩展 RealMatrixChangingVisitor 
接口 的 类 (充当 映射 函数 ) 并 实现 所 需 的 方法 。 














public class PowerMappingFunction implements RealMatrixChangingVisitor { 
private double power; 


public PowerMappingFunction(double power) { 
this.power = power; 


} 


@Override 

public void start(int rows, int columns, int startRow, int endRow, 
int startColumn, int endColumn) { 
// 在 运算 开始 之 前 调用 一 次 …… 此 处 不 需要 

} 


@Override 
public double visit(int row, int column, double value) { 
return Math.pow(value, power); 


} 


@Override 
public double end() { 
// 遍历 所 有 项 之 后 ， 调 用 一 次 …… 此 处 不 需要 


return 0.0; 


} 


然后 把 所 需 函 数 映射 到 已 有 和 矩阵 ， 就 像 下 面 这 样 ， 把 该 类 的 实例 传递 到 walkInOptimizedOr der () 
方法 。 





/* 和 矩阵 的 每 个 元 素 x 都 就 地 更 新 为 x */ 


matrix.walkInOptimizedOrder(new PowerMappingFunction(1.2)); 


也 可 以 利用 Apache Commons Math 内 置 的 分 析 国 数 ， 它 实现 了 UnivariateFunction 接口 ， 
可 以 轻松 地 把 任意 函数 映射 到 矩阵 的 每 个 元 素 。 
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public class UnivariateFunctionMapper implements RealMatrixChangingVisitor { 
UnivariateFunction univariateFunction; 


public UnivartateFunctionMapper(UnivariateFunction univartateFunction) { 
this.univariateFunction = univariateFunction; 


} 


@Override 
public void start(int rows, int columns, int startRow, int endRow, 
int startColumn, int endColumn) { 


// 不 匹配 





} 


@Override 
public double visit(int row, int column, double value) { 
return univariateFunction.value(value) ; 


} 


@Override 
public double end() { 
return 0.0; 
} 
} 


例如 ， 想 要 扩展 2.2.11 TH RATS TEI, ET ACE A 4 A : 





public class MatrixOperations { 


public static RealMatrix XWplusB(RealMatrix X, RealMatrix W, RealVector b, 
UnivariateFunction univariateFunction) { 


RealMatrix z = XWplusB(X, W, b); 


z.walkInOptimizedOrder(new UnivariateFunctionMapper(univariateFunction)); 
return Z; 


因此 ， 若 想 把 S 型 函数 logistic 国 数 ) 映射 到 仿 射 变 换 ， 则 可 以 这 样 做 : 
// 根据 输入 矩阵 x、 权 值 矩 阵 w 以 及 偏 移 向 量 b 生 成 新 矩阵 之 后 ， 
// 把 Ss 型 函数 映射 到 新 矩阵 的 所 有 元 素 


MatrixOperations.XWplusB(x, w, b, new Sigmoid()); 





有 几 件 重要 的 事情 需要 说 明 。 首 先 ， 这 里 也 有 保护 访问 者 (preserving visitor) ， 它 遍历 
矩阵 每 个 元 素 ， 但 是 不 改变 其 内 容 。 另 外 需要 注意 的 是 方法 。 唯 一 真正 需要 实现 的 是 
visit() 方法 ， 它 应 当 返 回 每 个 输入 值 的 新 值 。 此 处 并 不 需要 start() 与 end() 方法 (尤其 
在 这 种 情况 下 )。 在 启动 所 有 操作 之 前 只 需要 调用 一 次 start() 方法 。 例 如 ， 假 设 在 后 续 计 
算 中 需要 矩阵 行列 式 ， 就 可 以 在 start() 方法 中 计算 一 次 ， 把 它 作 为 类 变量 存储 ， 然 后 在 
visit() 操作 中 使 用 它 。 同 样 ， 在 访问 过 所 有 元 素 后 ， 调 用 一 次 end() 方法 。 可 以 用 这 个 方 


























法 来 记录 运行 指标 、 访 问 站 点 总 数 ， 乃 至 错误 信号 。 在 任何 情况 下 ， 当 所 有 事情 做 完 后 ， 
该 方法 返回 end() 的 值 。 不 需要 在 end() 方法 中 引入 任何 实际 逻辑 ， 但 是 至 少 可 以 返回 有 
ACH double 值 ， 例 如 0.0， 它 不 过 是 个 占 位 符 而 已 。 注 意 RealMatrix.walkInOptimized- 
Order(RealMatrixChangingVisitor visitor, int startRow, int endRow, int startColumn, 
int endColumn) 方法 ， 它 只 针对 子 阵 进行 操作 ， 子 阵 边界 由 方法 签名 给 出 。 当 只 需要 就 地 
更 新 矩阵 的 特定 矩形 块 ， 而 保持 其 余 位 置 不 变 时 ， 可 以 使 用 该 方法 。 


2.3 和 矩阵 分 解 


考虑 到 我 们 已 经 掌握 的 有 关 和 矩阵 相 乘 的 知识 ， 很 容易 想到 ， 任 何 矩 阵 都 可 以 分 解 为 儿 个 其 
他 和 矩阵 的 乘积 。 把 一 个 矩阵 分 解 为 儿 个 矩阵 ， 可 以 确保 对 重要 的 矩阵 性 质 进行 有 效 且 数值 
稳定 的 计算 。 例 如 ， 尽 管 矩 阵 求 逆 以 及 和 矩阵 行列 式 有 显 式 的 代数 公式 ， 但 在 对 其 计算 时 ， 
最 好 还 是 先 把 它 进 行 分 解 ， 然 后 再 求 着。 行列 式 可 以 直接 从 Cholesky 分 解 或 者 LU 分 解 中 
得 到 。 此 处 所 有 算 阵 分 解 都 可 以 用 于 求解 线性 方程 组 ， 因 而 可 以 求 矩 阵 逆 。 表 2-1 列 出 了 
Apache Commons Math 中 实现 的 各 种 矩阵 分 解 的 性 质 。 


表 2-1: 和 矩阵 分 解 的 性 质 
































分 解 算法 矩阵 类 型 求解 方法 求 å Š 行 列 xX 
Cholesky 对 称 正 定 精确 v v 

特征 方 阵 精确 v v 

LU 方 阵 精确 v v 

QR 任意 最 小 二 乘法 v 

SVD 任意 最 小 二 乘法 v 





2.3.1 Cholesky 分 解 


JEBE A 的 Cholesky 分 解 是 指 把 矩阵 4 分 解 为 4 = LL"， 其 中 工 是 下 三 角 和 矩阵 ， 其 上 三 角 
(对 角 线 之 上 ) IF: 





CholeskyDecomposition cd = new CholeskyDecomposition(matrix); 





i, 0 hi hy 
A= hi bo 0 |‖|0 L, 
har ba l 0 0 


RealMatrix l = cd.getL(); 


Cholesky 分 解 只 对 对 称 正定 矩阵 有 效 ， 其 主要 用 途 是 计算 服从 多 维 正 态 分 布 的 随机 变量 。 
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2.3.2 LU 分 解 


下 -上 (LU) 分 解 [lower-upper (LU) decomposition] 把 矩阵 4 分 解 为 下 三 角 和 矩阵 工 与 


= fateh) U, BIA =LU; 


ha 0 0 Uy, Uy» uy 
A Li bp 0 0 uy, u, 
bahy l 0 0 u 


LUDecomposition lud = new LUDecomposition(matrix); 
RealMatrix u = lud.getU(); 
RealMatrix l = lud.getL(); 


LU 分 解 用 于 求解 线性 方程 组 ， 其 中 未 知 数 个 数 与 方程 数 相 同 。 








2.3.3 ”QR 分 解 
QR 分 解 把 矩阵 4 分 解 成 由 单位 列 向 量 组 成 的 正 交 矩阵 O LAT = FABRE R: 
ha qa fim \ fia Tia Tin 
| Da ae || Oot ei Tas 
ee a 


QRDecomposition qrd = new QRDecomposition(matrix) ; 
RealMatrix q = lud.getQ(); 
RealMatrix r = lud.getR(); 


QR 分 解 〈 以 及 类 似 分 解 ) 的 主要 应 用 之 一 是 计算 特征 分 解 ， 这 是 





因为 矩阵 O 的 每 个 列 是 


正 交 的 。QR 分 解 也 用 于 求解 超 定 线性 方程 组 。 对 数据 点 的 数目 〈 行 数 ) 大 于 维 数 〈 列 数 ) 
的 数据 集 而 言 ， 通 常 就 属于 这 种 情况 。 使 用 QR 分 解 求解 (相对 于 SVD) 的 优点 之 一 是 容 








易 获 得 解 参数 误差 ， 解 参数 可 以 直接 从 和 矩阵 R 中 计算 出 。 


2.3.4 奇异 值 分 解 


奇异 值 分 解 (SVD) 是 指 把 m x nE ADRA A = USV', KP, Um x m HEE, 
Sæm x n 对 角 和 矩阵 ， 其 元 素 是 非 负 实数 ;VV 是 n x 于 本 和 矩阵。 作为 西 和 矩阵 ， 已 与 于 都 具 























有 UU = 了 的 性 质 ， 其 中 了 是 单位 矩阵 。 











Ua Ur cr Uim S11 0 Via 

Uy, Uy» Um | 0 S33 0 0 V2 
A 一 

Unt Un? u n,m 0 0 S 0， vi 





大 多 数 情 况 下 ，m 大 n， 即 矩阵 中 的 行 数 大 于 或 等 于 列 数 。 这 样 就 没 
H, UAm x nE, S$ 为 xn x n Fh 
于 是 此 时 可 以 只 采用 两 个 维 数 中 的 较 
， 即 p= min(m, n)。Apache Commons Math 的 实现 就 用 了 这 个 方法 。 











而 是 可 以 实现 更 有 效 的 计算 ， 称 作 瘦 (thin) SVD。 其 
BE, VAn x n 矩阵。 在 实际 中 ， 也 可 能 是 m < n, 
小 值 




















/* 矩阵 matrix 是 m x nh, 








p= min(m, n) */ 





必要 计算 完整 的 SVD， 


SingularValueDecomposition svd = new SingularValueDecomposition(matrix); 


RealMatrix u = svd.getU(); // mxp 
RealMatrix s = svd.getS(); // pxp 
RealMatrix v = svd.getV(); // pxn 
/* 从 S 的 对 角 线 以 降序 的 方式 获取 值 */ 
double[] singularValues = svd.getSingularValues(); 


/* 也 可 以 获得 输入 矩阵 的 协 方差 矩阵 */ 





double minSingularValue = 0;// 零 或 负 值 意味 着 使 用 所 有 的 奇异 值 


RealMatrix cov = svd.getCovariance(minSingularValue); 


奇异 值 分 解 有 儿 个 有 用 的 性 质 。 类 似 于 特征 分 解 ， 它 用 于 对 和 矩阵 4 


用 的 维 。 此 外 ， 作 为 一 种 线性 解法 ，SVD 可 以 用 于 任何 形状 的 矩阵 。 尤 其 是 在 求解 从 定 外 





降 维 ， 只 保留 那些 最 有 


TOT 





阵 时 ， 即 维 数 BC) wR PBB (GTA) 时 ，SVD 是 稳定 的 。 


2.3.5 “特征 分 解 


特征 (eigen) 分 解 的 目标 是 把 矩阵 4 重新 组 织 为 独立 且 正 交 的 列 向 量 的 集合 ， 


称 作 特征 向 


量 (eigenvector)。 每 个 特征 向 量 都 有 相应 的 特征 值 ， 可 用 于 对 特征 向 量 按 从 最 重要 (最 大 


特征 值 ) 到 最 不 重要 (最 小 特征 值 ) 的 顺序 来 排序 。 然 后 ， 可 以 只 选择 最 重要 的 特征 向 量 











作为 矩阵 4 的 代表 。 一 个 根本 问题 是 ， 有 没有 什么 方法 可 以 只 用 较 少 维 数 就 能 描述 矩阵 A 


的 全 部 (或 大 部 分 ) ? 
对 于 矩阵 4， 存 在 由 向 量 x 以 及 常数 4 组 成 的 解 ， 使 得 Ax = x。 











z| 


XF). 4 的 所 有 可 能 值 的 集合 称 为 特 和 和 


E 值 ， 所 有 对 应 的 向 量 称 为 特征 








特 和 


J 以 存在 多 个 解 ( 妈 x, 4 


向 量 。 对 称 实 和 矩阵 A 的 











E 分 解 表示 为 4 = VD 让 ， 结 果 可 表示 为 m x m 对 角 和 矩阵 D (其 











和 m x m FEB V ( 其 列 向 量 即 特征 向 量 )。 





Vi V2 Vim dı 0 
A= Vi V2 Vam 0 2， 
Vin Vin,2 ee Vaim 0 0 


有 几 种 方法 进行 特征 分 解 。 从 实用 角度 讲 , 通常 


commons .math3. linear .EigenDecomposition 类 中 实现 的 


E 值 降序 的 方式 排列 。 换 名 话说， 第 一 个 特征 向 量 (矩阵 族 的 第 0 列 ) 是 最 重要 


量 采 用 特 和 和 
的 特征 向 量 。 














中 特征 值 在 对 角 线 上 ) 
0 Vi Vl Vl 
0 Viz V22 Vm,2 
E dnm Vim Vom Vingm 





只 需要 Apache Commons Math 在 org.apache. 


最 简单 形式 即 可 。 特 征 值 与 特征 向 








线性 代数 | 49 


double[][] data = {{1.0, 2.2, 3.3}, {2.2, 6.2, 6.3}, {3.3, 6.3, 5.1}}; 
RealMatrix matrix = new Array2DRowRealMatrix(data); 


/* RRE FRMEDLA KRE EEEN */ 


EigenDecomposition eig = new EigenDecomposition(matrix) ; 














/* 特征 值 的 实 部 (或 虚 部 ) 可 以 用 double 型 的 数组 获得 */ 


double[] eigenValues = eig.getRealEigenvalues(); 





/* 也 可 以 直接 从 和 矩阵 D 中 访问 单个 的 特征 值 */ 
double firstEigenValue = eig.getD().getEntry(0, 0); 

















/* 可 以 用 这 种 方式 访问 第 一 个 特征 向 量 */ 


RealVector firstEigenVector = eig.getEigenvector(0); 








/* 记 住 特征 向 量 正 是 矩阵 F 的 列 */ 


RealVector firstEigenVector = eig.getV.getColumn(0); 





2.3.6 ”行列 式 

行列 式 (determinant) 是 标量 值 ， 它 由 和 矩阵 4 计算 得 出 ， 通 常 在 多 维 正 态 分 布 中 需要 计算 
行列 式 。 和 矩阵 A 的 行列 式 记 作 |4|。Cholesky 分 解 、 特 征 分 解 以 及 LU 分 解 的 类 提供 了 得 到 
行列 式 的 方法 。 





/* 从 Cholesky 分 解 中 计算 行列 式 */ 


double determinant = new CholeskyDecomposition(matrix).getDeterminant(); 


/* 从 特征 分 解 中 计算 行列 式 */ 


double determinant = new EigenDecomposition(matrix).getDeterminant(); 








/* 从 LU 分 解 中 计算 行列 式 */ 


double determinant = new LUDecomposition(matrix).getDeterminant(); 


2.3.7 ER% 


AERE (inverse) 的 概念 类 似 于 实数 R 的 倒数 ， 其 中 RIR) = 1。 注 意 该 式 也 可 以 写作 
RR = 1。 同 样 ， 和 矩阵 A 的 逆 记 作 A, AME SIBERIA ERA AA! = IT， 其 中 了 是 单位 矩 
阵 。 虽 然 有 直接 计算 矩阵 逆 的 公式 ， 但 是 对 大 和 矩阵 而 言 ， 这 些 公 式 缓慢 而 复杂 ， 数 值 计 算 
也 不 稳定 。Apache Commons Math 中 的 每 种 分 解 方法 都 实现 了 DecompositionSolver 接口 ， 
该 接口 在 求解 线性 方程 组 时 需要 和 矩阵 逆 。 于 是 ， 甜 阵 逆 可 以 通过 DecompositionSolver 类 
的 访问 方法 获得 。 若 和 矩阵 类 型 与 所 使 用 的 方法 相 容 ， 则 任何 分 解 方法 都 可 求 出 矩阵 逆 。 




















/* 用 Cholesky 分 解 、LU 分 解 、 特 征 分 解 、QR 分 解 或 SVD 分 解 求 方 阵 的 逆 */ 


RealMatrix matrixInverse = new LUDecomposition(matrix).getSolver().getInverse(); 





矩阵 逆 也 可 以 从 奇异 值 分 解 中 计算 得 出 : 








/* 用 SVD 分 解 求 方 阵 或 矩形 矩阵 的 逆 */ 
RealMatrix matrixInverse = 
new SingularValueDecomposition(matrix).getSolver().getInverse(); 


或 者 也 可 以 使 用 QR 分 解 : 
/* 适用 于 和 矩形 矩阵 ， 但 是 用 于 非 奇 异 矩 阵 时 会 出 错 */ 


RealMatrix matrixInverse = new QRDecomposition(matrix).getSolver().getInverse(); 








每 当 通 过 除法 把 矩阵 从 等 式 一 侧 移动 到 另 一 侧 时 ， 会 用 到 和 矩阵 逆 。 另 一 个 常见 应 用 是 计算 
Mahalanobis 距离 ， 以 及 通过 扩展 计算 多 维 正 态 分 布 。 
2.4 求解 线性 方程 组 


本 章 一 开始 描述 了 系统 X 玉 = Y, 并 把 它 作为 线性 代数 的 基本 概念 。 通 常 ， 也 需要 引入 不 
依赖 于 x 的 6 项 一 一 截 距 项 或 偏 移 量 ， 如 下 式 : 








F 











y= F x1, 101,1 F X1, 202,1 E E X nOn, 1 
有 两 种 方法 引入 截 距 项 。 第 一 种 是 为 矩阵 天 添加 一 个 全 1 的 列 ， 以 及 为 矩阵 W RiT 
未 知 数 。 在 这 种 情况 下 ， 选 择 哪 个 行列 对 并 不 重要 ， 只 要 /j = 就 可 以 了 。 此 处 选择 天 的 最 
后 一 列 以 及 丈 的 最 后 一 行 。 








Xi 12 inl \f oi D> @ p Yia Viz Yip 
Xai Xa XM, 1 |] Oy Myx JP 
Xm Xm 77 Xn i OO  On+i2 Op 人 Jo Vm2 °° Ymp 








注意 ， 在 这 种 情况 下 ， 丈 的 列 是 独立 的 。 因 此 ， 只 是 为 了 可 以 方便 地 在 一 段 代码 中 完成 运 
算 ， 我 们 寻找 了 p 个 独立 的 线性 模型 。 


/* 数据 */ 
double[][] xData = {{0, 0.5, 0.2}, {1, 1.2, .9}, {2, 2.5, 1.9}, {3, 3.6, 4.2}}; 
double[][] yData = {{-1, -0.5}, {0.2, 1}, {0.9, 1.2}, {2.1, 1.5}}; 


/* 创建 矩阵 X， 偏 移 量 作为 最 后 一 列 */ 

double[] ones = {1.0, 1.0, 1.0, 1.0}; 

int xRows = 4; 

int xCols = 3; 

RealMatrix x = new Array2DRowRealMatrix(xRows, xCols + 1); 
x.setSubMatrix(xData, 0, 0); 

x.setColumn(3, ones); // 第 4 列 的 索引 值 为 3 














/* 创建 矩阵 了 */ 


RealMatrix y = new Array2DRowRealMatrix(yData) ; 
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/* 求解 矩阵 球 的 值 */ 

SingularValueDecomposition svd = new SingularValueDecomposition(x); 
RealMatrix solution = svd.getSolver().solve(y); 
System.out.println(solution) ; 

// {{1.7,3.1}, {-0.9523809524, -2.0476190476}, 

// {0.2380952381, -0.2380952381}, {-0.5714285714,0.5714285714}} 





给 定 参 数值 ， 方 程 组 的 解 如 下 : 





yı = 1.7 x, — 0.95 x, + 0.24 x; — 0.57 





yy = 3.1.x, — 2.05 x, — 0.24 x, + 0.57 


如 果 意 识 到 前 面 的 代数 表达 式 等 价 于 本 章 早先 讲 过 的 矩阵 仿 射 变 换 ， 那 就 可 以 得 到 引入 截 
距 的 第 二 种 方法 : 

















Y=XW+ hb" 

















APIA EASE, Doe AB is Se Dal AE EEE ACD. BIA As Bl RS HB al A — 
次 和 矩阵， 这 并 不 会 造成 太 大 负担 。 然 而 ， 在 第 S 章 处 理 多 层 线性 模型 时 ， 调 
整 矩阵 将 是 困难 且 低 效 的 。 在 那 种 情况 下 ， 更 方便 的 选择 是 用 代数 项 表示 线性 模型 ， 其 中 
W 5j b 是 完全 独立 的 。 














AIS 


统计 学 





把 统计 学 的 基本 原理 应 用 到 数据 科学 ， 可 以 深刻 地 了 解数 据 。 统 计 学 是 个 强大 的 工具 ， 使 
用 得 当 的 话 ， 就 可 以 使 人 们 很 有 把 握 地 做 出 决策 。 然 而 ， 统 计 学 很 容易 误 用 。 此 处 的 示例 
是 Anscombe 的 4 组 数据 〈 见 图 3-1)， 图 中 显示 了 4 个 截然 不 同 的 数据 集 ， 它 们 却 有 着 几 
乎 相同 的 统计 值 。 在 许多 情况 下 ， 数 据 的 简单 图 示 可 以 立刻 使 人 们 意识 到 数据 意味 着 什 
么 。 从 Anscombe 的 4 组 数据 中 可 以 立刻 得 到 这 些 特征 : 左上 角 的 图 中 , x 与 了 是 线性 的 ， 
但 有 异常 值 ， 右 上 角 的 图 中 ， 可 以 看 到 x 与 y 形 成 一 种 有 顶点 的 非 线 性 关系 ， 左 下 角 的 图 
中 ,除了 一 个 异常 值 之 外 ,x 与 y 是 准确 的 线性 关系 ， 右 下 角 的 图 中 ， 在 统计 上 ，y 分布 在 
x= 8 上 ,但 是 有 个 异常 值 在 x= 19 处 。 尽 管 每 幅 图 看 上 去 都 是 如 此 不 同 ， 但 对 每 个 数据 集 
进行 标准 统计 计算 ， 其 结果 却 相 同 。 显 然 ， 在 现实 中 ， 有 眼睛 是 最 精妙 的 数据 处 理工 具 ! 然 
而 ， 不 能 总 是 用 这 种 方式 将 数据 可 视 化 。 许 多 时 候 数 据 是 多 维 的 ， 也 许 x 是 多 维 的， 也 许 
yy 也 是 多 维 的。 尽管 可 以 对 x 与 y 的 每 个 维度 绘制 图 形 ， 获 得 数据 集 的 某 些 特征 ， 却 会 丢 
掉 x 中 各 变量 之 间 的 所 有 依赖 关系 。 
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3-1; Anscombe 的 4 组 数据 


3.1 数据 的 概率 起 源 

本 书 的 开端 把 数据 点 (data point) 定义 为 一 个 事件 的 记录 ， 该 事件 发 生 在 特定 时 间 、 特 定 
地 点 。 可 以 用 狄 拉克 5 函数 5(x) 表示 数据 点 ， 它 在 x= 0 时 值 为 > ， 在 其 他 点 时 值 为 0。 该 
国 数 可 以 进一步 推广 为 5(x x)， 这 意味 着 狄 拉克 6 函数 在 x = x 时 值 为 %*， 在 其 他 点 时 值 
为 0。 这 里 有 个 问题 : 是 什么 促使 了 数据 点 的 产生 ? 


3.1.1 概率 密度 

有 了 时 数据 来 自 熟 知 的 生成 源 ， 它 可 以 用 函数 fx) 描述 。ftx) 通常 可 以 通过 一 些 参 数 9 进行 
调整 ， 记 作 fo; 9)。 存 在 多 种 fx)， 它 们 中 的 大 多 数 来 自 对 自然 世界 行为 的 观察 。 接 下 来 的 
几 节 将 探究 一 些 更 常见 的 形式 ， 包 括 连 续 分 布 以 及 离散 随机 数 分 布 。 


可 以 把 每 个 位 置 的 所 有 概率 进行 累加 ， 成 为 变量 x 的 函数 。 





























fo) =>. pa-s) 





邮 


或 者 对 于 离散 整数 变量 k, A PA: 
Ax) = AK)(x 一 月 


注意 jtx) 可 以 大 于 1。 概 率 密度 并 不 是 概率 ， 而 是 局 部 密度 。 为 了 确定 概率 ， 必 须 在 x 的 
任意 范围 内 对 概率 密度 进行 积分 。 通 常用 累积 分 布 函数 完成 此 项 任务 。 




















3.1.2 ”累积 概率 
概率 分 布 国 数 (PDF, probability distribution function) 需要 进行 恰当 的 归 一 化 ， 使 得 对 空 
间 整 体积 分 时 ， 事 件 在 整个 空间 发 生 的 概率 是 100%。 








F=| ADdr=l 


然而 ， 若 事件 尚未 发 生 ， 则 也 可 以 计算 出 该 事件 将 在 x 点 发 生 的 累积 概率 。 








F(x) = | fod 


注意 累积 分 布 函 数 是 单调 的 〈 总 是 随 着 x 的 增长 而 增长 )， 并 且 它 〈 儿 乎 ) 总 是 S 型 函数 形 
状 (倾斜 的 S)。 给 定 事件 尚未 发 生 ， 它 将 在 x 点 发 生 的 概率 是 多 少 ? 对 于 大 的 x 值 , P= 1。 
强加 这 个 条 件 (大 的 x 值 ， P=1)， 就 可 以 确保 在 茶 个 已 定义 的 区 间 中 事件 肯定 发 生 。 


























3.1.3 Bitte 

对 已 知 概率 分 布 fx) 求 积 分 ， 可 以 得 出 累积 分 布 国 数 (或 者 对 整个 空间 求 积 分 得 到 1)， 在 
求 积 分 时 引入 x ee, RERE., WFO OH, SIERRAS HDA c 的 天 
阶 期 望 ， 可 以 用 下 式 计 算 ; 


H = [ Œœ- fed 


对 于 k=1 ABE, Fic = 0 时 的 特别 量 ， 就 是 zx 的 期 望 或 者 均值 : 





u= | xf Cdr 


与 均值 相关 的 上 > 1 的 高 阶 矩 ， 称 作 关于 均值 的 中 心 德 (centra moment), ， 它 们 与 描述 性 的 
统计 值 有 关 ， 可 以 表示 如 下 : 


Myr = | C-u fd 








均值 的 二 阶 、 三 阶 以 及 四 阶 中 心 矩 具有 实用 的 统计 含义 。 我 们 定义 方差 c HNE: 


—_ 











2 
o =f 














其 平方 根 是 标准 差 c， 是 数据 距离 均值 多 远 的 一 种 度量 。 偏 度 (skewness) y 是 表示 分 布 非 
对 称 性 的 一 种 度量 ， 与 均值 的 三 阶 算 有 关 : 





峰 度 (kurtosis) 是 一 种 表示 分 布 尾 部 有 多 宽 的 度量 ， 与 均值 的 四 阶 中 心 矩 有 关 : 


下 一 市 会 探讨 正 态 分 布 ， 这 是 一 种 最 常用 且 普 遍 的 概率 分 布 。 正 态 分 布 的 峰 度 x = 3。 因 为 
我 们 经 常 把 事物 与 正 态 分 布 相 比 较 ， 所 以 术语 超 值 峰 度 (excess kurtosis) 定义 如 下 : 


我 们 现在 定义 了 关于 正 态 分 布 的 峰 度 (尾部 的 宽度 )。 注 意 ， 许 多 时 候 提 及 峰 度 时 ， 实 际 
上 指 的 是 超 值 峰 度 ， 两 个 术语 可 以 互 换 。 

定义 高 阶 矩 是 可 能 的 ， 并 且 在 数据 科学 之 外 的 领域 ， 它 有 不 同 的 用 法 与 应 用 。 本 书 只 讨论 
FURE, 

















3.1.4 Kaj 


CER EH, KA (entropy) ERRA PEER ae, RR A, 
如 下 式 所 示 : 





Hp) = | Plog, (pO) dx 
对 于 离散 分 布 ， 炉 如 下 式 所 示 : 
HAP) =—¥_/ PC )log,(PC,)) 


FIBA BIE (ULE 3-2) JAER, MEERE OB LI, Mik. Æp = 0.5 TH, Wii 
高 。p 等 于 0 与 1 BRAHE. 


























3-2: (ARABI 
tH AT LAS A SLI (cross entropy) 来 讨论 两 种 分 布 之 间 的 炉 ， 其 中 p(x) 是 真实 的 分 布 ， 
而 g(x) 是 用 于 测试 的 分 布 : 
Hp,9) = [pO log, (gC)dx 
对 于 离散 的 情形 ， 有 下 式 : 


Hp,9) =->. P(x, log, (aq) 


3.1.5 连续 分 布 
一 些 众 所 周知 的 分 布 被 很 好 地 表征 并 得 到 广泛 应 用 。 许 多 分 布 是 从 真实 世界 自然 现象 观测 


中 得 到 的 。 无 论 变量 是 用 实数 还 是 用 整数 描述 ， 以 表明 相应 的 连续 分 布 与 离散 分 布 ， 计 算 
累积 概率 、 统 计 甜 以 及 统计 度量 的 基本 原则 都 是 相同 的 。 


1. 均匀 分 布 
均匀 分 布 (uniform distribution) 在 其 定义 的 区 间 x € [a, 5] 上 具有 恒定 不 变 的 概率 密度 ， 
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而 在 其 他 区 间 的 概率 密度 为 0。 事实 上 ， 这 正 是 你 所 熟悉 的 生成 [6，1] 区 间 


正式 描述 ， 例 如 java.utiL.Random.nextDoubLe()。 默 认 的 构造 方法 设置 下 限 


b= 1.0。 均 勺 分 布 概率 密度 的 图 形 是 高 帆 (top hat) 或 箱 


上 随机 实数 的 
a = 0.0， 上 限 





(box) 的 形状 ， 如 


图 3-3 所 示 。 





f(x) 











3-3: 均匀 分 布 的 PDF, 参数 a= 0, b=1 
FN PDF 数学 表达 式 如 下 : 

















累积 分 布 函 数 (CDF) 如 图 3-4 所 示 ， 其 数学 表达 式 如 下 : 





=g 





，XE[a,D 
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图 3-4: 均匀 分 布 的 CDF, 参数 a=0, b=1 
对 于 均匀 分 布 ， 均 值 与 方差 不 能 直接 给 出 ， 但 是 可 以 用 下 限 与 上 限 计算 得 出 ， 如 下 式 所 示 : 

















1 
=—(a+b 
4 ae ) 
2 1 2 
= 一 (0 一 
CT oS a) 








要 用 Java 调用 均匀 分 布 ， 可 以 使 用 UniformDistribution(a, b) 类 ， 其 中 下 限 与 上 限 在 构 
造 方法 中 给 出 。 若 构造 方法 中 不 给 出 参数 ， 则 将 调用 标准 均匀 分 布 ， 其 中 a= 0.0，5 = 1.0。 


Nm 








UniformRealDistribution dist = new UniformRealDistribution(); 
double lowerBound = dist.getSupportLowerBound(); // 0.0 

double upperBound = dist.getSupportUpperBound(); // 1.0 

double mean = dist.getNumericalMean(); 

double variance = dist.getNumericalVariance(); 

double standardDeviation = Math.sqrt(variance) ; 

double probability = dist.density(0.5)); 

double cumulativeProbability = dist.cumulativeProbability(0.5); 
double sample = dist.sample(); // 例如 0.023 

double[] samples = dist.sample(3); // 例如 {9.145,0.878,0.431} 

















/-6 与 = 人 +0 重 新 设置 均匀 分 布 的 参数 ， 其 中 4 是 中 心 点 (均值 )， 


9 是 从 中 心 点 到 下 限 或 上 限 的 距离 。 于 是 ， 方 差 是 j? - 9 ， 标 准 差 是 。_ 5 。 那 么 ， 
3 














PDF 如 下 式 所 示 ; v3 
L xe[u—6,u+o6] 
Me SSF 
0, 其 他 情况 
CDF 如 下 式 所 示 : 
0, x<p-6 
Jig ,274 £ 
F(x)= ge 5 ) xe[u—6,u+0) 
l, x>u+ő 








基于 中 心 点 表示 均匀 分 布 ， 要 计算 a=A-5 与 =/ 





6， 并 把 它们 写 到 构造 方法 中 。 








/* 初始 化 基于 中 心 点 的 均匀 分 布 ， 其 中 均值 = 10， 半 宽度 = 2 */ 








double mean = 10.0 
double hw = 2.0; 
double a = mean - hw; 
double b = mean + hw; 


UniformRealDistribution dist = new UniformRealDistribution(a, b); 


此 时 ， 所 有 方法 将 返回 正确 结果 ， 不 需要 进一步 更 改 。 在 试图 对 分 布 进行 比较 时 ， 这 种 围 
绕 着 均值 重新 设置 参数 的 方法 会 派 上 用 场 。 基 于 中 心 点 的 均匀 分 布 是 从 正 态 分 布 〈 或 其 他 








关于 峰值 对 称 的 分 布 ) 自然 推广 而 来 的 。 
2. 正 态 分 布 















































在 形形色色 的 应 用 场合 中 ， 正 态 分 布 是 最 有 用 且 应 用 最 广泛 的 分 布 。 正 态 分 布 也 称 作 高 斯 
分 布 (Gaussian distribution) 或 钟 形 曲线 (bell curve)， 这 种 分 布 是 关于 中 心 顶 点 对 称 的 ， 
其 宽度 可 变 。 在 多 数 场合 中 ， 说 某 事物 的 大 小 是 围绕 着 平均 值 加 上 或 减 去 特定 量 ， 指 的 正 
是 正 态 分 布 。 例 如 ， 对 于 班级 考试 成 绩 ， 一 种 解释 是 少数 人 考 得 确实 好 ， 少 数 人 考 得 确实 
糟糕 ,但 是 大 多 数 人 考 得 一 般 或 正好 位 于 中 间 。 在 正 态 分 布 中 ,分 布 中 心 是 最 大 的 顶点 ， 也 
是 分 布 均值 4， 宽度 用 参数 c 表示 ， 同 时 它 也 是 所 有 值 的 标准 差 。 正 态 分 布 在 x E [-%, oo] 

















都 有 定义 ， 如 图 3-5 所 示 。 
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图 3-5: 正 态 分 布 的 PDF, 参数 y=0, o=1 


概率 密度 数学 表达 式 如 下 : 





ME (x) 
f(s) al a) 


累积 分 布 函数 形状 如 图 3-6 所 示 ， 它 可 以 用 误差 函数 表示 : 


F(x)= sa] 
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F(x) 











图 3-6: 正 态 分 布 的 CDF, 参数 y=0, o=1 


在 Java 中 调用 时 ， 默认 构造 方法 创建 的 就 是 标准 正 态 分 布 ， 其 中 y= 0.0，o = 1.0。 否 则 ， 
可 以 把 参数 4 和 o 传人 构造 方法 中 。 


/* 采用 默认 的 u = 0 以 及 ao = 1 进行 初始 化 */ 

NormalDistribution dist = new NormalDistribution(); 

double mu = dist.getMean(); // 0.0 

double sigma = dist.getStandardDeviation(); // 1.0 

double mean = dist.getNumericalMean(); // 0.0 

double variance = dist.getNumericalVariance(); // 1.0 

double LowerBound = dist.getSupportLowerBound(); // 负 无 穷 大 
double upperBound = dist.getSupportUpperBound(); // 正 无 穷 大 
/* x= 0.0 的 概率 密度 */ 

double probability = dist.density(0.0); 

/* 计算 x= 0.0 的 累积 分 布 函 数值 */ 

double cumulativeProbability = dist.cumulativeProbability(0.0); 
double sample = dist.sample(); // 1.0120001 

double samples[] = dist.sample(3); // {.0102, -0.009, 0.011} 


3. 多 维 正 态 分 布 

正 态 分 布 可 以 推广 到 更 高 的 维度 ， 成 为 多 维 正 态 (multivariate normal， 又 名 multinormal) 
分 布 。 变 量 x 以 及 均值 14 是 向 量 ， 而 协 方差 矩阵 三 包含 对 角 线 上 的 方差 以 及 其 他 i,j 对 对 
应 的 协 方差 。 大 体 上 ， 多 维 正 态 分 布 的 形状 是 挤 压 的 球形 ， 且 关于 均值 对 称 。 当 协 方 差 为 
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0 且 方 差 相 等 时 ， 对 于 单位 正 态 分 布 ， 该 分 布 是 完美 的 圆 (或 球 )。 服 从 该 分 布 的 随机 点 示 





例如 图 3-7 所 示 。 
































图 3-7: 用 二 维 正 态 分 布 产 生 的 随机 点 
Dp 维 正 态 分 布 的 概率 分 布 函数 表达 式 为 : 


f(x)= 





1 
(2r)? zj’ 


ex E W 2 (x -| 


注意 ， 若 协 方差 矩阵 的 行列 式 等 于 0， 即 |2|=0 则 fw) 将 变 为 无 穷 大 。 同 样 要 注意 ， 当 
| 到 =0 时 ， 不 可 能 计算 出 所 需 的 协 方差 矩阵 逆 隐 " 。 在 这 种 情况 下 ， 称 该 矩阵 是 奇异 的 。 


车 发 生 这 样 的 情况 ，Apache Commons Math hH 

















H TÉ 








] 





的 异常 ， 


org.apache.commons.math3.linear.SinguLlarMatrixException: matrix is singular 


协 方差 矩阵 是 奇异 的 ， 这 是 什么 原因 造成 的 呢 ? 这 是 一 种 共 线 性 的 征 候 ， 即 基础 数据 的 两 
个 (或 更 多 ) 变量 相同 ， 或 者 可 以 互相 线性 组 合 。 换 名 话说 ， 若 有 三 个 维度 的 数据 ， 且 协 
方差 矩阵 是 奇异 的 ， 则 可 能 意味 着 数据 分 布 可 以 用 两 个 维度 甚至 一 个 维度 更 好 地 描述 。 
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CDF 没有 对 应 的 解析 表达 式 ， 但 可 以 通过 数值 积分 得 到 。 不 过 ，Apache Commons Math 只 
支持 一 元 数值 积分 。 


虽然 多 维 正 态 分 布 的 均值 以 及 协 方差 是 double 型 的 数组 ， 但 依旧 可 以 通过 Multivariate- 
NormalDistribution 类 的 getMeans() 方法 获得 多 维 正 态 分 布 的 均值 ， 以 及 通过 RealMatrix 
类 的 getData() 方法 获得 协 方差 。 


double[] means = {0.0, 0.0, 0.0}; 
double[][] covariances = {{1.0, 0.0, 0.0},{0.0, 1.0, 0.0}, {0.0, 0.0, 1.0}}; 
MultivariateNormalDistribution dist = 

new MultivariateNormalDistribution(means, covariances); 


/* 在 点 x = {90.0，0.0，0.0} 的 概率 密度 */ 

double probability = dist.density(x); // 0.1 
double[] mn = dist.getMeans(); 

double[] sd = dist.getStandardDeviations(); 

/* 返回 RealMatrix, 但 是 可 以 转换 为 double 型 数组 */ 
double[][] covar = dist.getCovariances().getData(); 
double[] sample = dist.sample(); 

double[][] samples = dist.sample(3); 

















注意 有 一 种 特殊 情况 ， 当 变量 完全 独立 时 ， 协 方差 矩阵 是 对 角 和 矩阵 。 克 的 行列 式 只 是 对 角 
线 上 元 素 0; ; 的 乘积 。 对 角 和 矩阵 的 逆 仍 然 是 对 角 和 矩阵 ， 每 个 元 素 为 ac, ,。 于 是 ，PDF 精简 
为 一 维 正 态 分 布 PDF 的 乘积 : 


= 1 (u 
so-ne) 


i 











在 单位 正 态 分 布 的 情形 中 ， 多 维 单位 正 态 分 布 的 均值 向 量 的 分 量 为 0， 协 方差 矩阵 等 于 单 
位 矩阵 ， 即 对 角 线 上 全 为 1 的 矩阵 。 


4. 对 数 正 态 分 布 

对 数 正 态 分 布 (log normal distribution) 与 正 态 分 布 的 关系 是 ， 变 量 x 的 对 数 ， 即 In(x) 的 
分 布 是 正 态 分 布 。 若 在 正 态 分 布 中 用 In(x) 替代 x， 就 可 以 得 到 对 数 正 态 分 布 ， 但 有 一 些 细 
微 的 区 别 。 因 为 对 数 只 对 正 数 x 有 定义 ， 所 以 这 个 分 布 的 区 间 是 xs(0, co], Bx > 0。 这 个 分 
布 关 于 顶点 是 非 对 称 的 ， 在 * 较 小 时 达到 顶点 ， 在 x 变 大 时 有 向 无 穷 延 展 的 长 尾 ， 如 图 3-8 
所 示 。 


























图 3-8: 对 数 正 态 分 布 的 PDF, 参数 m=0，s=1 
其 位 置 (刻度 ) 参数 m 和 形状 参数 s 决定 了 PDF: 





it 1 (Inx —m)’ 
JŒ al 3 | 




















此 处 ,m 与 s 是 对 数 分 布 变 量 x 的 对 数 Inx 的 均值 与 标准 差 。 其 CDF 类 似 于 图 3-9， 其 数 














F(x)= 由 | IE 
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图 3-9: 对 数 正 态 分 布 的 CDF, FA m=0, s=1 











与 正 态 分 布 不 同 ，m 既 不 是 分 布 的 平均 值 ， 也 不 是 分 布 的 众 数 (最 有 可 能 的 值 或 者 顶点 )。 
这 是 因为 有 更 多 的 值 延展 到 正 无 穷 大 。 变 量 x 的 均值 与 方差 计算 公式 如 下 : 














I 














T 




















u=exp(m+s°/2) 
o = (exp(s’) -1)exp(2m + s°) 


可 以 按 下 述 方法 调用 对 数 正 态 分 布 : 
/* 用 默认 的 m = 0 与 s = 1 进行 初始 化 */ 


NormalDistribution dist = new NormalDistribution(); 

double LowerBound = dist.getSupportLowerBound(); // 0.0 
double upperBound = dist.getSupportUpperBound(); // 无 穷 大 
double scale = dist.getScale(); // 0.0 

double shape = dist.getShape(): // 1.0 

double mean = dist.getNumericalMean(); // 1.649 

double variance = dist.getNumericalVariance(); // 4.671 
double density = dist.density(1.0); // 0.3989 

double cumulativeProbability = dist.cumulativeProbability(1.0); // 0.5 
double sample = dist.sample(); // 0.428 

double[] samples = dist.sample(3); // {0.109, 5.284, 2.032} 


在 哪里 可 以 看 见 对 数 正 态 分 布 ? 人 口 年 龄 分 布 ， 以 及 〈 有 时 ) 粒子 大 小 的 分 布 。 注 意 ， 对 
数 正 态 分 布 源 自 许多 独立 分 布 的 乘法 效应 。 








5. 经 验 分 布 

在 一 些 场合 中 ， 虽 然 有 数据 ， 但 是 不 知道 数据 服从 什么 分 布 。 此 时 仍然 可 以 根据 数据 
近似 出 分 布 ， 甚 至 计算 出 概率 密度 、 累 积 概率 以 及 随机 数 。 使 用 经 验 分 布 的 第 一 步 工 
作 是 ， 把 数据 搜集 到 若干 相同 大 小 的 桶 (bin) 中 ， 所 有 这 些 桶 涵盖 整个 数据 集 的 范围 。 
EmpiricalDistribution 类 可 以 输入 double 型 数组 ， 装 载 本 地 文件 ， 或 者 根据 URL 装载 文 
件 。 在 这 些 情况 下 ， 数 据 的 每 行 必须 只 有 一 项 。 


/* 从 标准 正 态 分 布 中 获得 25090 个 随机 数 */ 
NormalDistribution nd = new NormalDistribution(); 
double[] data = nd.sample(2500); 


// 默认 的 构造 方法 设置 ( 桶 数 = 1000) 

// 尝试 一 下 〈 点 数 /10) 会 更 好 

EmpiricalDistribution dist = new EmpiricalDistribution(25); 
dist.load(data); // 也 可 以 从 文件 或 者 URL 装 载 数据 

double LowerBound = dist.getSupportLowerBound(); // 0.5 

double upperBound = dist.getSupportUpperBound(); // 10.1 

double mean = dist.getNumericalMean(); // 5.48 

double variance = dist.getNumericalVariance(); // 15.032 

double density = dist.density(1.0); // 0.357 

double cumulativeProbability = dist.cumulativeProbability(1.0); // 0.153 
double sample = dist.sample(); // 例如 1.396 

double[] samples = dist.sample(3); // 例如 [10.098, 0.7934, 9.981] 


可 以 用 一 种 称 作 直方 图 (histogram) 的 条 形 图 来 绘制 经 验 分 布 的 数据 ， 如 图 3-10 所 示 。 

















服从 正 态 分 布 的 随机 数 的 分 布 
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S 3-10: 随机 正 态 分 布 的 直方 图 ， 参 数 /=0, o=1 
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直方 图 的 代码 采用 了 第 1 章 的 BarChar 图 ， 只 是 直接 从 EmpiricalDistribution 实例 中 添加 
数据 ， 该 实例 包含 了 每 个 桶 中 所 有 SummaryStatistics 的 List, 




















/* 已 经 装载 数据 的 现 有 EmpiricalDistribution 对 象 */ 
List<SummaryStatistics> ss = dist.getBinStats(); 
int binNum = 0; 
for (SummaryStatistics s : ss) { 
/* 把 桶 的 个 数 添加 到 XYChart.Series 实 例 */ 
series.getData().add(new Data(Integer.toString(binNum++), s.getN())); 


} 
// 采用 JavaFX BarChart 绘 制 直方 图 


3.1.6 ”离散 分 布 
有 几 种 离散 随机 数 的 分 布 ， 它 们 只 支持 整 型 值 ( 记 作 后) 。 


1. (ABAD A 

伯 努 利 分 布 (Bernoulli distribution) 是 最 基本 的 分 布 ， 或 许 也 是 最 为 人 所 熟知 的 分 布 ， 
为 它 本 质 上 是 抛 硬 币 。 在 “正面 赢 ， 反 面 输 ” 的 情形 中 ， 硬 币 有 两 种 可 能 的 状态 : 正面 
(kK=1) 以 及 反面 (k=0), HH k= 1 记 作 成 功 ， 其 概率 等 于 p。 若 硬币 是 均匀 的 ， 则 
P= 1/2， 即 得 到 正面 的 概率 和 得 到 反面 的 概率 相等 。 但 是 ， 车 硬币 是 非 均 匀 的 ， 即 p + 1/2, 
会 如 何 呢 ?” 此 时 就 要 用 到 概率 质量 函数 (PMF)， 如 下 式 所 示 : 





W 







































































_ji-p, k=0 
7 = a 
累积 分 布 函数 如 下 式 所 示 : 
0, k<0 
F(k)=41-p, 0<k<l 
1, k>1 
均值 与 方差 的 计算 公式 如 下 式 : 
H=p 
o° = p(l- p) 


注意 伯 努 利 分 布 与 二 项 分 布 相 关 ， 只 是 伯 努 利 分 布 的 试验 次 数 为 n = 1。 伯 努 利 分 布 用 
BinomialDistribution(1, p) 类 实现 ,将 n 设置 为 1。 


BinomialDistribution dist = new BinomialDistribution(1, 0.5); 
int lowerBound = dist.getSupportLowerBound(); // 0 

int upperBound = dist.getSupportUpperBound(); // 1 

int numTrials = dist.getNumberOfTrials(); // 1 

double probSuccess = dist.getProbabilityOfSuccess(); // 0.5 





RE 


68 | 第 3 章 


double mean = dist.getNumericalMean(); // 0.5 

double variance = dist.getNumericalVariance(); // 0.25 

// k=1 

double probability = dist.probability(1); // 0.5 

double cumulativeProbability = dist.cumulativeProbability(1); // 1.0 
int sample = dist.sample(); // 例如 1 

int[] samples = dist.sample(3); // 例如 [1，6，1] 


2. 二 项 分 布 
若 进 行 多 重 伯 和 努 利 试验 ， 则 得 到 二 项 分 布 。 对 于 n 重 伯 努 利 试验 ， 每 次 成 功 的 概率 为 p， 
则 天 次 成 功 如 图 3-11 所 示 。 
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图 3-11: 二 项 分 布 的 PMF,， 参数 n= 40，p = 0.5 


概率 质量 函数 的 表达 式 如 下 : 
k E: n kA n-k 
J(= g)? (l— p) 


CDF 如 图 3-12 所 示 。 
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3-12; 二 项 分 布 的 CDF， 参 数 m = 40, p=0.5 
CDF 的 表达 式 如 下 : 


F(k)=1,_ (n-k, 1+k) 


l-p 














其 中 ，1 是 归 一 化 的 不 完全 beta 函数 。 二 项 分 布 的 均值 与 方差 的 计算 公式 如 下 : 








u=np 
o° =np(l- p) 


在 Java 中 ，BinomialDistribution 的 构造 方法 有 两 个 必需 的 参数 : n (试验 次 数 ) 和 p (一 
次 试验 中 成 功 的 概率 ) 。 


BinomialDistribution dist = new BinomialDistribution(10, 0.5); 
int lowerBound = dist.getSupportLowerBound(); // 0 

int upperBound = dist.getSupportUpperBound(); // 10 

int numTrials = dist.getNumberOfTrials(); // 10 

double probSuccess = dist.getProbabilityOfSuccess(); // 0.5 
double mean = dist.getNumericalMean(); // 5.0 

double variance = dist.getNumericalVariance(); // 2.5 

II k=1 

double probability = dist.probability(1); // 0.00977 





double cumulativeProbability = dist.cumulativeProbability(1); // 0.0107 
int sample = dist.sample(); // 例如 9 
int[] samples = dist.sample(3); // 例如 [4，5，4] 


3. 泊 松 分 布 
泊 松 分 布 (Poisson distribution) 常用 来 描述 鲜 有 发 生 的 离散 独立 事件 。 若 事件 在 某 个 区 间 
内 以 恒定 比率 1> 0 发生 ， 所 发 生 事件 数目 是 整数 宇 0， 则 所 对 应 的 PMF 如 图 3-13 所 示 。 


























f(k) 
© 
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3-13; 泊 松 分 布 的 PMF， 参 数 4= 5 
PMF 的 数学 表达 式 如 下 : 


A exp(-A) 


f(k)= A 





图 3-14 给 出 了 CDF, 
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图 3-14: 泊 松 分 布 的 CDF， 参 数 人 = 5 
CDF 的 数学 表达 式 如 下 : 


T([k+1],4) 


F(k)= a 





均值 与 方差 都 等 于 比率 参数 4， 如 下 式 所 示 : 











泊 松 分 布 的 实现 需 在 构造 方法 中 填 人 参数 4， 上 限 为 Integer .MAX (k=2”-1=2147 483 647)。 





PoissonDistribution dist = new PoissonDistribution(3.0); 

int lowerBound = dist.getSupportLowerBound(); // 0 

int upperBound = dist.getSupportUpperBound(); // 2147483647 

double mean = dist.getNumericalMean(); // 3.0 

double variance = dist.getNumericalVariance(); // 3.0 

//k=1 

double probability = dist.probability(1); // 0.1494 

double cumulativeProbability = dist.cumulativeProbability(1); // 0.1991 
int sample = dist.sample(); // 例如 1 

int[] samples = dist.sample(3); // 例如 [2，4，1] 





3.2 ”数据 集 的 特征 

一 旦 有 了 数据 集 ， 首 先 要 做 的 是 理解 数据 的 特征 。 应 当知 道 的 内 容 包 括 : 数值 极限 ， 是 否 
存在 任何 异常 值 ， 以 及 数据 形状 古 否 类 似 于 已 知 分 布 函数 中 的 一 种 。 即 使 对 数据 潜在 的 分 
布 一 无 所 知 ， 也 仍然 可 以 检查 两 个 数据 集 是 否 来自 同 一 (未知 的 ) 分 布 。 也 可 以 通过 协 方 
差 /相关 系数 来 检查 每 对 变量 的 相关 性 (或 不 相关 性 )。 若 变量 x 伴随 着 响应 y， 则 可 以 通 
过 检查 线性 回归 来 判断 x 与 y 之 间 是 否 存 在 着 最 基本 的 关系 。 本 市 中 的 绝 大 多 数 类 最 适合 
于 小 的 静态 数据 集 ， 可 以 完全 装 入 内 存 ， 因 为 这 些 类 中 的 大 多 数 方法 都 依赖 于 内 存 中 的 数 
据 。 下 一 节 中 ， 所 处 理 的 数据 将 大 (或 者 不 方便 ) 到 不 适合 装载 到 内 存 中 。 


3.2.1 WHE 

AH TT REEL, HHH TES TT PEI BIE A BRIT SH RA A REER CH OD A 
函数 ftx) 的 情形 。 处 理 实际 数据 时 ， 通 常 不 知道 x), ACA. ERI 
计算 有 男 一 个 关键 特征 : 稳定 性 。 当 遇 到 极 值 时 ， 对 统计 量 的 估计 可 以 导致 数值 误差 。 采 
用 更 新 矩 的 方法 ， 可 以 避免 数值 的 不 准确 。 


1. 样本 甜 
对 于 实际 数据 ， 我 们 可 能 并 不 知道 其 真实 的 统计 分 布 函 数 ， 但 可 以 估计 中 心 矩 
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N iz 








此 处 的 估计 均值 m =， 其 计算 公式 如 下 : 


1 n 
¥=—) ox, 
N iz 











2. SHE 
去 掉 ln 的 因子 ， 估 计 中 心 矩 的 公式 变 为 下 式 : 





M, =) (7) 
在 这 种 特定 的 形式 中 ， 未 归 一 化 的 矩 可 以 通过 直接 计算 分 解 为 多 个 部 分 。 这 样 做 有 很 大 的 
优势 ， 即 对 未 归 一 化 的 矩 按 不 同 部 分 进行 计算 ， 从 而 可 以 在 不 同 的 进程 中 计算 ， 甚 至 是 在 


完全 不 同 的 机 器 上 计算 。 随 后 可 以 把 它们 拼接 在 一 起 。 另 一 优势 是 这 种 计算 方法 对 极 值 不 
太 敏 感 。 两 个 分 块 的 非 归 一 化 中 心 矩 的 组 合 公式 如 下 : 


2 j mY n V nn A =| i 
M,=M, +M,,+ -| M， +| =| M,_, |6/,+| 2726 
k k,l 大 ,2 i | n k-j,l | n k-j,2 2,1 | n | ni | n | 
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人 1= 吉 一 是 两 个 数据 分 块 的 均值 之 差 。 当 然 ， 因 为 上 面 的 公式 只 适用 于 > 1， 所 以 也 需 
要 合并 均值 的 方法 。 给 定 任何 两 个 数据 分 块 ， 已 知 各 自 均 值 与 数据 点 个 数 ， 总 数据 点 个 数 
为 n=nm+n,， 那 么 按 下 式 计算 的 均值 是 稳定 的 : 























2,1 
+n, 
n 


=| 
ll 
| 








若 其 中 某 个 数据 分 块 只 有 单个 点 x， 那 么 非 归 一 化 中 心 矩 的 组 合 公 式 可 以 简化 为 : 


Sa -6Y (n-1.¥ =a 
non i EE 
此 处 ，5 =x- 互 是 新 增值 x 与 现 有 数据 分 块 均值 之 差 。 


下 一 节 中 将 看 到 如 何 用 这 些 公式 稳定 地 计算 重要 的 统计 结果 。 在 分 布 式 计 算 应 用 中 ， 若 希 
望 把 统计 计算 分 为 多 个 部 分 ， 则 这 些 公式 是 必要 的 。 另 一 个 有 用 的 应 用 是 无 存储 的 计算 ， 
它 不 是 针对 整个 数据 数组 进行 计算 ， 而 是 逐步 地 记录 和 矩 ， 并 对 它们 进行 递增 更 新 。 


















































3.2.2 ”描述 性 统计 

对 DescriptiveStatistics 类 进行 实例 化 ， 但 不 设置 任何 参数 ， 以 便 以 后 再 添加 值 或 者 赋 
F double 型 数组 (以 后 仍然 可 以 再 填充 值 )。 可 以 使 用 statutils 类 的 静态 方法 ， 虽 然 也 
没有 什么 错误 ， 但 这 不 像 是 Java 的 用 法 ， 使 用 DescriptiveStatistics 类 可 能 更 明智 。 本 
节 中 的 一 些 公式 是 不 稳定 的 ， 下 一 节 中 描述 的 公式 会 更 稳定 。 的 确 ， 那 些 方法 中 的 一 些 也 
用 在 描述 性 统计 方法 中 。 表 3-1 中 列 出 了 Anscombe 的 4 组 数据 ， 供 本 章 进 一 步 分 析 所 用 。 


323-1; Anscombe 的 4 组 数据 

x1 y1 x2 y2 x3 y3 x4 y4 
10.0 8.04 0.0 914 100 746 8.0 6.58 
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76 
13.0 7.58 3.0 8.74 13.0 12.74 8.0 7.71 
9.0 8.81 9.0 8.77 90 7.11 8.0 8.84 
11.0 8.33 1.0 926 11.0 781 80 8.47 
14.0 9.96 40 810 140 8.84 80 7.04 
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25 
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50 
120 1084 120 913 120 815 8.0 5.56 
7.0 482 7.0 7.26 7.0 6.42 8.0 7.91 
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89 
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然后 ， 可 以 用 这 些 数据 集 创建 DescriptiveStatistics 类 。 
/* Anscombe 数 据 集中 y1 的 统计 值 */ 


DescriptiveStatistics descriptiveStatistics = new DescriptiveStatistics(); 
descriptiveStatistics.addValue(8.04) ; 
descriptiveStatistics.addValue(6.95); 


// 继续 添加 y1 的 值 











然而 ， 你 可 能 已 经 有 自己 所 需 的 所 有 数据 ， 或 者 它 只 是 初始 集 ， 将 在 随后 添加 数据 。 如 果 
需要 ， 就 可 以 用 ds.addvalue(double value) 方法 一 直 添 加 更 多 的 值 。 此 时 ， 可 以 通过 调用 





这 个 方法 或 者 直接 打印 这 个 类 来 给 出 统计 报表 : 
System.out.println(descriptiveStatistics); 
这 将 产生 下 面 的 结果 : 


DescriptiveStatistics: 

n: 11 

min: 4.26 

max: 10.84 

mean: 7.500909090909091 

std dev: 2.031568135925815 
median: 7.58 

skewness: -0.06503554811157437 
kurtosis: -0.5348977343727395 





所 有 这 些 (以 及 更 多 的 ) 量 可 以 通过 其 相应 的 获取 值 方法 获得 ， 举 例如 下 。 


1. 计数 
最 简单 的 统计 量 是 数据 集中 数据 点 的 个 数 : 











long count = descriptiveStatistics.getN(); 


2. 总 和 
也 可 以 得 到 所 有 值 的 总 和 : 


double sum = descriptiveStatistics.getSum(); 


3. 最 小 值 
用 这 个 方法 获得 数据 集 的 最 小 值 : 





double min = descriptiveStatistics.getMin(); 


4. 最 大 值 
用 这 个 方法 获得 数据 集 的 最 大 值 : 


double max = descriptiveStatistics.getMax(); 
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5. 均值 
可 以 直接 计算 样本 的 平均 值 ， 即 均值 : 














1 n 
T=— x, 
N i=1 











然而 ， 这 种 计算 方法 对 于 极 值 是 敏感 的 。 给 定 5 ax-¥, WPS x, AID 
值 进行 更 新 : 


过 
X=x,+ 





n 


调用 getMean() 方法 时 ，Commons Math 采用 更 新 均值 的 计算 公式 : 
double mean = descriptiveStatistics.getMean(); 


6. 中 位 数 
中 位 数 (median) 是 有 序 (升序 ) 数据 集 的 中 间 值 ， 其 优点 是 使 得 极 值 的 问题 最 小 化 。 尽 
管 Apache Commons Math 中 没有 直接 计算 中 位 数 的 方法 ,但 是 还 是 容易 计算 中 位 数 的 。 当 
数组 长 度 是 偶数 时 ， 取 两 个 中 间 元 素 的 均值 ， 否 则 ， 只 要 返回 数组 最 中 间 的 元 素 则 可 。 

// 对 存储 的 值 进行 排序 

double[] sorted = descriptiveStatistics.getSortedValues(); 


int n = sorted. length; 
double median = (n % 2 == 0) ? (sorted[n/2-1]+sorted[n/2])/2.0 : sorted[n/2]; 


7. 众 数 
众 数 (mode) 是 最 可 能 出 现 的 值 。 若 值 是 double 型 ， 则 众 数 的 概念 就 没有 意义 ， 因 为 每 
个 值 只 能 出 现 一 次 。 很 明显 ， 也 有 例外 ， 例 如 数字 中 有 许多 零 ， 或 者 数据 集 大 但 是 数值 精 
度 小 (例如 两 位 小 数 ) 时 。 于 是 ， 众 数 有 两 个 用 途 : 车 所 考虑 的 变量 是 离散 的 (整数 )， 
则 众 数 是 有 用 的 ， 就 像 在 Anscombe 的 4 组 数据 的 第 4 组 那样 。 此 外 ， 若 已 经 从 经 验 分 布 
中 创建 了 桶 ， 众 数 就 是 最 大 的 桶 。 然 而 ， 需 要 考虑 数据 中 有 噪声 的 可 能 性 ， 从 而 桶 计数 器 
会 错误 地 把 异常 值 标记 为 众 数 。Statutits 类 包含 了 几 个 对 统计 有 用 的 静态 方法 ， 此 处 使 
用 其 求 众 数 的 方法 。 

// 若 出 现 次 数 最 多 的 值 只 有 一 个 ， 则 将 其 存储 在 mode[9] 中 

// 若 出 现 次 数 最 多 的 值 多 于 一 个 ， 则 将 这 些 值 按 升序 存储 在 mode 数 组 中 

double[] mode = StatUtils.mode(x4); 

// mode[0] = 8.0 

double[] test = {1.0, 2.0, 2.0, 3.0, 3.0, 4.0} 


// mode[0] 
// mode[1] 









































2.0 
3.0 





8. 方差 

FSF (variance) 是 一 种 反映 数据 分 布 有 多 广 的 度量 ， 它 是 永远 大 于 或 等 于 零 的 实数 值 。 若 
所 有 的 x 值 都 相等 ， 则 方差 是 零 。 相 反 ， 数 据点 分 布 范围 越 大 ， 对 应 的 方差 就 越 大 。 已 知 
数据 点 总 体 的 方差 等 于 均值 的 二 阶 中 心 矩 ， 表 达 式 如 下 ; 












































1 n 
s’ =— > (x -7)’ 
N iz 


然而 ， 大 多 数 时 候 我 们 并 没有 全 部 数据 ， 仅 是 从 更 大 的 【可 能 是 未 知 的 ) 数据 集中 抽取 了 
样本 ， 因 此 需要 对 这 个 偏差 进行 修正 : 


2 1 < 一 \2 
S$ 二 一 — ed 
ep al ) 


这 种 形式 称 作 样 本 方差 (sample variance), ， 也 是 最 常用 的 方差 。 注 意 ， 样 本 方差 可 以 用 非 
归 一 化 的 二 阶 和 矩 表示 为 : 








s ant ay 


n-1 ° 





就 像 均值 计算 中 根据 新 数据 点 zx AACA HE x AE x 进行 更 新 那样 ，Commons Math 
根据 新 数据 点 x 以 及 已 有 均值 亏 采 用 非 归 一 化 的 二 阶 矩 更 新 公式 计算 方差 : 























_1 
M, =M, +0 
n 


itib ô=x-7. 


因为 数据 通常 是 从 一 些 更 大 的 、 可 能 是 未 知 的 数据 集中 选取 的 样本 ， 所 以 大 多 数 时 候 ， 当 
需要 方差 时 ， 所 求 的 方差 指 的 是 纠偏 的 样本 方差 : 


double variance = descriptiveStatistics.getVariance(); 
然而 如 果 需 要 ， 获 得 总 体 方差 的 方法 也 很 直接 : 
double populationVariance = descriptiveStatistics.getPopulationVariance(); 
9. 标准 差 
方差 可 视 化 起 来 比较 困难 ， 因 为 它 是 x 的 量 级 ， 相 对 于 均值 而 言 ， 通 常 是 个 大 的 数值 。 对 
方差 取 平 方 根 ， 定 义 该 值 为 标准 差 s， 它 具有 与 变量 和 均值 单位 相同 的 优点 。 因 此 ， 采 用 


Hto 之 类 的 值 是 有 帮助 的 ， 它 表明 数据 偏离 均值 的 程度 。 可 以 用 下 面 的 方法 显 式 地 计算 
标准 差 : 
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然而 在 实际 中 ， 采 用 更 新 公式 来 计算 样本 方差 。 当 需要 时 ， 返 回 样本 方差 的 平方 根 作为 标 
准 差 : 


double standardDeviation = descriptiveStatistics.getStandardDeviation(); 
若 需 要 总 体 标准 差 ， 则 可 以 对 总 体 方差 求 平方 根 直 接 计算 。 


10. 均值 的 误差 
尽管 经 常 假设 标准 差 是 均值 的 误差 ， 实 际 却 不 是 这 样 。 标 准 差 描述 了 数据 是 如 何 围绕 平均 
值 分 布 的 。 通 过 下 式 ， 可 以 利用 标准 差 计算 均值 本 身 的 准确 率 svo 














al- 


也 可 以 用 简单 一 点 的 Java 方法 计算 。 





double meanErr = descriptiveStatistics.getStandardDeviation() / 
Math.sqrt(descriptiveStatistics.getN()); 


11. 偏 度 

偏 度 (skewness) 用 来 度量 数据 分 布 的 非 对 称 性 ， 它 可 以 是 正 实数 或 负 实 数 。 正 的 偏 度 表 
明 大 多 数值 倾向 原点 (x = 0) ; 负 的 偏 度 表 明 值 向 远 处 分 布 (向 右 ) ; 偏 度 为 0 表明 数据 
完美 地 分 布 在 数据 分 布 峰值 的 两 人 出 。 偏 度 可 以 用 下 面 的 表达 式 显 式 地 计算 : 


1 A(x, 一 无 > 
Te 5 


然而 ， 关 于 偏 度 更 稳定 的 计算 是 通过 更 新 三 阶 中 心 矩 得 到 的 。 























ô 0 
M,=M,, Mai +(n—1)(n 2) 


然后 ， 根 据 需 要 ， 可 以 计算 偏 度 。 


1 M, 
Py a 
(n-1)\(n-2) s? 


Commons Math 的 实现 对 存储 在 内 存 中 的 数据 集 进 行 迭 代 ， 递 增 地 更 新 M;， 然 后 进行 纠 
偏 ， 并 返回 偏 度 。 





double skewness = descriptiveStatistics.getSkewness(); 
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12. 峰 度 
峰 度 是 关于 数据 分 布 尾 部 的 一 种 度量 。 样 本 峰 度 估计 与 关于 均值 的 四 阶 中 心算 相关， 计算 
公式 如 下 : 





(n+l) ee =F) 
(n-1)(n =e 


可 以 简化 为 下 式 : 


bast (n+l) M, 
(n-1)(n-2)(n-3) st 








峰 度 等 于 0 RRF OM, ZW Bia eR IS. AE HK, RA HER 
尾 的 地 方 。 不 过 ， 我 们 通常 想 把 峰 度 表示 为 与 正 态 分 布 相关 〈 正 态 分 布 的 峰 度 =3 )。 于 是 
可 以 从 中 减 去 3， 并 将 新 量 称 作 超 值 峰 度 ， 但 实际 上 大 多 数 人 把 超 值 峰 度 直接 称 作 峰 度 。 
在 这 个 定义 中 ', x=0 表示 数据 与 正 态 分 布 有 相同 的 峰值 与 尾部 形状 。 峰 度 大 于 3 时 ， 分 
布 称 作 尖 峰 态 的 (leptokurtic) ， 其 尾部 比 正 态 分 布 要 宽 。 当 小 于 3 时 ， 分 布 称 作 低 峰 态 
AY (platykurtic) ， 其 尾部 值 较 少 〈 比 正 态 分 布 要 少 )。 超 值 峰 度 计算 公式 如 下 式 : 




















(n+1) M, 3(n-1)° 
(n—1\(n—2)(n-3) s* (n—2)(n—3) 





就 像 方差 峰 度 通过 对 非 归 一 化 的 四 阶 中 心算 进行 更 新 来 计算 。 对 于 添加 到 计 
算 中 的 每 个 点 ， 只 要 点 的 数目 三 4， 就 可 以 用 下 面 的 公式 对 M, 更 新 。 在 任何 点 上 ， 峰 度 
可 以 从 Mi ae ees 出 。 




















6 oY 5 
M,=M,, 4M. rous (2 | +(n—1)(n? 3n+3) 














采用 getKurtosis() 方 法， 默认 返回 值 是 根据 超 值 峰 度 定 义 计算 得 出 的 。 这 可 以 通过 实现 
org.apache.commons.math3.stat.descriptive.moment.Kurtosis 类 来 核实 ， 在 getKurtosis() 


方法 中 调用 该 类 。 











double kurtosis = descriptiveStatistics.getKurtosis(); 


3.2.3 a 
至 此 我 们 已 经 讨论 了 只 有 单个 变量 的 情形 。Descriptivestatistics 类 仅 处 理 一 维 








注 1: 此 处 指 超 值 峰 度 。 一 一 译 者 注 
主 2: 此 处 指 的 峰 度 的 原始 定义 ， 不 是 超 值 峰 度 。 一 一 译 者 注 
注 3: 此 处 的 x 采用 的 是 峰 度 的 原始 定义 ， 不 是 超 值 峰 度 。 一 一 译 者 注 





os 

















数据 。 然 而 ， 通 常 有 几 个 维度 ， 有 几 百 个 维度 也 是 很 常见 的 。 有 两 种 选择 ， 第 一 种 是 用 
MultivariateStatisticalsummary 类 ， 在 下 一 节 描 述 它 。 若 可 以 不 使 用 偏 度 与 峰 度 ， 则 这 
将 是 最 好 的 选择 。 若 确实 需要 所 有 统计 量 ， 则 最 佳 选择 是 实现 关于 DescriptiveStatistics 
对 象 的 Collection 实例 。 首 先 确定 想 要 了 解 什么 。 例 如 ， 在 Anscombe 的 4 组 数据 中 ， 可 
以 用 下 面 的 方法 获取 一 元 统计 值 。 
































DescriptiveStatistics descriptiveStatisticsXx1 
DescriptiveStatistics descriptiveStatisticsXx2 


= new DescriptiveStatistics(x1); 
= new DescriptiveStatistics(x2); 
List<DescriptiveStatistics> dsList = new ArrayList<>(); 
dsList.add(descriptiveStatisticsx1); 

dsList.add(descriptiveStatisticsx2); 


然后 ， 可 以 对 List 进行 迭代 ， 获 取 统 计量 或 者 原始 数据 。 





for(DescriptiveStatistics ds : dsList) { 


double[] data = ds.getValues(); 
// 利用 数据 进行 操作 ， 或 者 


double kurtosis = ds.getKurtosis(); 


// 利用 峰 度 进行 操作 





若 数 据 集 更 加 复杂 ， 且 随后 的 分 析 中 需要 获取 数据 的 特定 列 ， 则 可 以 使 用 Map。 





DescriptiveStatistics descriptiveStatisticsX1 
DescriptiveStatistics descriptiveStatisticsY1 
DescriptiveStatistics descriptiveStatisticsXx2 


new DescriptiveStatistics(x1); 
new DescriptiveStatistics(y1); 
new DescriptiveStatistics(x2); 


Map<String, DescriptiveStatistics> dsMap = new HashMap<>(); 
dsMap.put("x1", descriptiveStatisticsX1); 
dsMap.put("y1", descriptiveStatisticsY1) ; 
dsMap.put("x2", descriptiveStatisticsxX2) ; 





当然 ， 现 在 可 以 很 容易 地 通过 键 获 取 特 定 的 量 或 者 数据 集 。 


double x1Skewness 
double[] xiValues 


dsMap.get("x1").getSkewness(); 
dsMap.get("x1").getVaLues(); 





当 维 数 很 多 时 ， 这 将 变 得 困难 。 但 若 数 据 已 经 存储 在 多 维 数组 〈 或 矩阵 ) 中 时 ， ee 
化 这 个 过 程 ， 可 以 对 列 索 引进 行 遍历 。 同 样 ， 由 于 可 能 已 经 把 数据 存储 在 数据 容器 类 
List 或 Map 中， 因此 把 构造 关于 DescriptiveStatistics 对 象 的 多 维 Collection 的 过 程 
动 化 是 直截了当 的 。 如 果 已 经 有 数据 字典 (关于 变量 名 及 其 属性 的 列表 )， 那 么 根据 它 进 
行 碗 代 是 特别 有 效 的 。 若 有 同一 种 类 型 的 高 维 数值 数据 ， 它 已 经 在 double 型 数组 形式 的 箱 
阵 中 存在 ， 则 使 用 下 一 节 的 MultivariateSummaryStatistics 类 可 能 会 更 容易 。 

















3.2.4 协 方差 与 相关 系数 

协 方差 矩阵 与 相关 系数 矩阵 是 对 称 的 m x m 方 阵 ， 其 维 数 m 等 于 原始 数据 集 的 列 数 。 

1. 协 方差 

协 方差 相当 于 二 维 变 量 的 方差 ， 它 刻画 两 个 变量 与 各 自 均值 差距 的 总 体 情 况 ， 其 计算 公式 
如 下 : 



































就 像 在 一 维 变量 中 样本 统计 和 矩 的 情形 一 样 ， 注 意 到 下 面 的 量 : 


n 


Cx= 2 -%,)(%, =z) 





在 给 定 均值 以 及 现 有 维 数 时 ， 可 以 表示 为 一 对 变量 x Ej x, AEE ET 























C, =C, +C, +(x, -¥, )(¥, -7,) 
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然后 ， 协 方差 可 以 在 任 一 点 进行 计算 : 


计算 协 方差 的 代码 如 下 : 
Covariance cov = new Covariance(); 


/* 采用 Anscombe 的 4 组 数据 作为 示例 */ 

double cov1 = cov.covariance(x1, y1); // 5.501 
double cov2 = cov.covariance(x2, y2); // 5.499 
double cov3 = cov.covariance(x3, y3); // 5.497 
double cov4 = cov.covariance(x4, y5); // 5.499 


老 数据 已 经 存储 在 二 维 的 double 型 数组 或 者 Realmatrix 实例 中 ， 则 可 以 把 它们 直接 传递 
给 构造 方法 ， 就 像 下 面 这 样 : 





//double[][] myData 或 者 RealMatrix myData 
Covariance covObj = new Covariance(myData); 
//cov 包 含 协 方差 ， 可 以 用 RealMatrix.get(i,j) 歼 取 元 素 以 对 cov 进 行 访问 


RealMatrix cov = covObj.getCovarianceMatrix(); 





注意 协 方差 矩阵 o 的 对 角 线 正 是 列 i 的 方差 ， 因 此 协 方差 矩阵 对 角 线 的 平方 根 是 每 维 数 
据 的 标准 差 。 因 为 总 体 均 值 通常 未 知 ， 所 以 采用 样本 均值 的 有 偏 协 方差 。 若 确实 知道 总 体 











均 


—_ 


直 ， 则 将 可 以 用 无 偏 的 修正 因子 Wn 计算 无 偏 的 协 方差 。 














2. 皮尔 逊 相关 系数 
皮尔 逊 相关 系数 与 协 方差 的 关系 如 下 式 ， 它 用 来 度量 两 个 变量 一 同 变化 的 可 能 性 有 多 大 : 














相关 系数 的 取 值 范围 是 -1~1， 其 中 1 表示 两 个 变量 几乎 相同 ，-1 表示 它们 是 相反 的 。 在 
Java 中 同样 有 两 种 选项 ， 用 默认 构造 方法 得 到 下 列 代码 : 








PearsonsCorreLation corr = new PearsonsCorrelation(); 





/* 采用 Anscombe 的 4 组 数据 作为 示例 */ 

double corr1 = corr.correlation(x1, y1)); // 0.816 
double corr2 = corr.correlation(x2, y2)); // 0.816 
double corr3 = corr.correlation(x3, y3)); // 0.816 
double corr4 = corr.correlation(x4, y4)); // 0.816 








然而 ， 如 果 已 有 数据 或 者 Covariance 实例 ， 那 么 可 以 采用 下 面 的 方法 : 











// 已 有 Covariance 实 例 cov 

PearsonsCorrelation corrObj = new PearsonsCorrelation(cov); 

// double[][] myData 或 者 RealMatrix myData 

PearsonsCorrelation corrObj = new PearsonsCorrelation(myData); 
// 用 RealMatrix.get(i,j) 获 取 元 素 

RealMatrix corr = corrObj.getCorrelationMatrix(); 





相关 性 并 不 意味 着 因果 关系 。 统 计 学 中 的 危险 之 一 是 对 相关 性 的 不 当 解 读 。 
若 两 个 变量 的 相关 性 高 ， 则 倾向 于 假定 一 个 变量 导致 了 另 一 个 变量 。 但 是 并 
非 如 此 。 事 实 上 ， 所 能 假定 的 是 可 以 拒绝 变量 之 间 毫 无 关联 的 想法 。 应 当 把 
相关 性 看 作 一 种 幸运 的 巧合 ， 而 不 是 所 研究 的 系统 底层 行为 的 根本 基础 。 














3.2.5 EH 

通常 人 们 想 要 找到 变量 XX 以 及 它们 的 响应 yy 之 间 的 关系 ， 也 就 是 试图 寻找 一 系列 的 值 2, 
使 得 7=XA。 最 后 ， 我 们 需要 3 种 量 : 参数 、 它 们 的 误差 ， 以 及 表示 拟 合 好 坏 的 统计 值 R. 
1. 简单 回归 

若 X 是 一 维 的 ， 则 问题 是 人 们 熟知 的 线性 方程 y>=C 和 + Bx ， 该 问题 可 以 归 类 为 简单 回归 。 
通过 计算 x 的 方差 os ， 以 及 x Sy 之 间 的 协 方差 cv, ， 可 以 估计 和 斜率。 
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然后 ， 采 用 斜率 以 及 x 与 了 的 均值 ， 可 以 估计 截 距 。 


a=y- px 





Java 代码 采用 了 SimpleRegression 类 。 
SimpleRegression rg = new SimpleRegression(); 


/* Anscombe 的 4 组 数据 中 的 x1 与 y1 的 x-y 对 */ 

double[][] xyData = {{10.0, 8.04}, {8.0, 6.95}, {13.0, 7.58}, 
{9.0, 8.81}, {11.0, 8.33}, {14.0, 9.96}, {6.0, 7.24}, 
{4.0, 4.26}, {12.0, 10.84}, {7.0, 4.82}, {5.0, 5.68}}; 





rg.addData(xyData); 


/* 获得 回归 的 结果 */ 

double alpha = rg.getIntercept(); // 3.0 

double alpha_err = rg.getInterceptStdErr(); // 1.12 
double beta = rg.getSlope(); // 0.5 

double beta_err = rg.getSlopeStdErr(); // 0.12 
double r2 = rg.getRSquare(); // 0.67 




















于 是 ， 可 以 将 这 些 结果 解析 为 = 3.04 0.Sx， 或 者 更 加 具体 地 解析 为 了 = (3.0 + 1.12)+ (0.5 + 
0.12)x。 在 多 大 程度 上 可 以 信任 这 个 模型 ? R = 0.67 是 个 相当 不 错 的 拟 合 ， 但 是 越 接近 于 
理想 的 R = 1.0 越 好 。 注 意 ， 若 对 Anscombe 的 4 组 数据 中 另外 3 个 数据 集 进行 相同 的 回 
归 分 析 ， 则 可 以 得 到 同样 的 参数 、 误 差 以 及 RR。 这 个 结果 尽管 令 人 困惑 ， 但 意义 深远 。 显 
然 ， 虽然 4 个 数据 集 看 上 去 如 此 不 同 ,但 是 它们 的 线性 拟 合 ( 合 放 在 上 面 的 蓝 色 直线 ) 是 
相同 的 。 尽 管 对 第 一 组 数据 来 说 ， 线 性 回归 是 理解 数据 的 一 种 强大 且 简 单 的 方法 ， 但 是 对 
第 2 组 数据 来 说 ， 此 处 对 x 进行 线性 回归 可 能 并 不 合适 。 在 第 3 组 数据 中 ， 线 性 回归 可 能 
是 正确 的 工具 ， 但 是 要 注意 (BR) 那个 看 上 去 像 异常 值 的 数据 点 。 在 第 4 组 数据 中 ， 回 
归 模 型 玖 怕 根本 不 适用 。 这 表明 ， 如 果 盲 目地 用 一 种 分 析 方 法 处 理 数 据 之 后 ， 只 根据 一 些 
参数 就 认为 模型 是 正确 的 ， 那 就 很 容易 使 自己 被 愚弄 。 

2. 多 元 回归 

解决 上 述 问题 有 多 种 方法 ， 但 是 最 常见 且 可 能 最 有 用 的 是 普通 最 小 二 乘 (OLS) 法 ， 其 解 
用 线性 代数 表示 如 下 : 







































































Apache Commons Math 中 的 OLSMuLtipleLinearRegression 类 对 QR 分 解 做 了 适当 的 封装 。 
该 实现 也 提供 了 除 QR 分 解 之 外 的 额外 功能 ， 你 会 发 现 这 些 功能 是 有 用 的 。 其 中 ， 特 别 要 
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指出 的 是 ,8 的 方差 一 协 方差 矩阵 如 下 ， 其 中 矩阵 尽 是 从 QR 分 解 中 得 出 的 。 





o? =(X"X\' =(R'R) 

在 这 种 情况 下 ，R 必须 截断 至 8 的 维度 。 给 定 拟 合 余数 E= y- 和 AP ， 可 以 计算 误差 的 方差 
s2, =ere/- 门 ， 其 中 疾 与 六 分 别 是 X 行 与 列 的 数目 ,矩阵 OF 的 对 角 线 值 的 平方 根 乘 以 
常数 ss 给 出 了 关于 拟 合 参数 的 误差 估计 。 


fa [2 
Op, = Serr op, 


Apache Commons Math 实现 的 普通 最 小 二 乘 回归 利用 了 线性 代数 中 的 QR 分 解 。 示 例 代 码 
中 的 方法 是 关于 怎 阵 的 几 个 标准 操作 的 适当 封装 。 注 意 默认 包括 截 距 项 ， 对 应 值 在 估计 参 
数 的 第 一 个 位 置 。 









































double[][] xNData = {{0, 0.5}, {1, 1.2}, {2, 2.5}, {3, 3.6}}; 
double[] yNData = {-1, 0.2, 0.9, 2.1}; 

// 默认 会 包含 截 距 项 

OLSMuLtipleLinearRegression mr = new OLSMultipleLinearRegression(); 
/* 注意 : 与 其 他 的 类 /方法 不 同 ， 此 处 y 与 x 的 位 置 是 倒 过 来 的 */ 
mr.newSampLleData(yNData, xNData); 

double[] beta = mr.estimateRegressionParameters(); 

// [-0.7499, 1.588, -0.5555] 

double[] errs = mr.estimateRegressionParametersStandardErrors(); 
// [0.2635, 0.6626, 0.6211] 

double r2 = mr.calculateRSquared(); 

// 0.9945 





线性 回归 是 个 庞大 的 课题 ， 它 有 多 种 变形 。 由 于 其 变形 太 多 了 ， 所 以 此 处 不 能 对 其 全 部 进 
行 讨论 。 然 而 需要 注意 的 是 ， 只 有 关 与 y 之 间 确 实 是 线性 关系 时 ， 这 些 方 法 才 具 有 意义 。 
自然 界 充满 了 非 线性 关系 ， 第 5 章 将 讨论 处 理 非 线性 关系 的 更 多 方式 。 


3.3 ”处 理 大 数据 集 


当 数 据 如 此 之 大 ， 以 至 于 将 其 存储 在 内 存 中 是 低 效 的 (或 者 根本 就 装 不 下 ) 时 ， 需 要 另 一 
种 计算 统计 结果 的 方法 。Descriptivestatistics 等 类 在 实例 化 期 间 ， 将 所 有 数据 都 存储 在 
内 存 中 。 不 过 另 一 种 处 理 这 个 问题 的 方式 是 只 保存 非 归 一 化 的 统计 矩 ， 并 一 次 用 一 个 数据 
点 对 这 些 非 归 一 化 的 统计 抱 进 行 更 新 。 更 新 之 后 ， 就 把 已 经 使 用 过 的 数据 点 丢弃 。Apache 


Commons Math 有 两 个 这 样 的 类 : SummaryStatistics 与 MultivariateSummaryStatistics, 






































也 可 以 对 非 归 一 化 矩 并 行 累加 ， 从 而 使 这 种 方法 的 有 效 性 得 以 增强 。 可 以 把 数据 进行 分 
块 ， 当 一 次 添加 一 个 值 时 ， 记 录 每 个 分 块 的 矩 。 最 后 ， 可 以 把 所 有 这 些 和 矩 进行 归并 ， 从 而 
得 到 概要 统计 量 。Apache Commons Math 的 AggregateSummaryStatistics 类 可 以 完成 这 种 
操作 。 很 容易 想象 ，TB 量 级 的 数据 分 布 在 大 集群 中 ， 甚 中 每 个 节点 负责 更 新 统计 矩 。 当 
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作业 结束 时 ， 就 可 以 用 简单 的 计算 完成 矩 的 归并 ， 任 务 也 就 结束 了 。 


通常 ， 数 据 集 瑟 可 以 划分 为 大 个 较 小 数据 集 : Xp Xn e XX。 理 想 情 况 下 ， 可 以 对 每 个 子 集 
X 进行 各 种 计算 ， 再 对 这 些 结 果 归 并 ， 从 而 得 到 所 需要 的 关于 关 的 统计 量 。 例 如 ， 若 想 要 
统计 义 中 数据 点 的 个 数 ， 则 可 以 统计 每 个 子 集中 数据 点 的 个 数 ， 再 把 这 些 结果 累加 ， 从 而 
得 到 总 体 数据 点 的 个 数 。 


























n=n+n+t :+n 
无 论 各 个 子 集 是 在 同一 台 机 器 的 不 同 线程 中 计算 ， 还 是 在 完全 不 同 的 机 器 上 计算 ， 上 式 都 
是 成 立 的 。 


因此 ， 若 计算 了 数据 点 的 个 数 ， 再 计算 每 个 子 集 各 自 的 值 之 和 (并 对 其 进行 记录 )， 则 随 
后 可 以 利用 这 些 信息 ， 以 分 布 式 的 方法 计算 XX 的 均值 。 
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最 简单 的 情形 可 以 是 只 做 成 对 操作 的 计算 ， 因 为 任何 数目 的 操作 都 可 以 归结 为 这 种 方式 。 
例如 , X= (X, +X) + (Xj +X) 是 3 次 成 对 操作 的 组 合 。 于 是 ， 有 3 种 成 对 算法 的 通用 情形 : 
第 1 种 ， 对 两 个 分 块 归并 时 ， 每 个 分 块 数据 点 数 n; > 1; 第 2 种 ， 只 有 一 个 分 块 的 数据 点 数 
n;> 1， 而 其 余 分 块 只 有 单个 数据 ， 即 n,= 1; 第 3 种 ， 所 有 分 块 都 只 包含 单个 数据 。 








3.3.1 累积 统计 

在 前 一 章 中 已 经 讨论 了 统计 量 是 如 何 更 新 的 。 读 者 或 许 会 想到 ， 可 以 在 不 同时 间 及 不 
同 机 器 上 计算 并 存储 〈 非 归 一 化 的 ) 矩 ， 当 方便 时 对 其 进行 更 新 。 只 要 记录 数据 点 数 
目 ， 以 及 所 有 相关 的 统计 和 矩 ， 就 可 以 在 任何 时 候 重 新 获取 它们 并 用 新 的 数据 点 集合 更 
新 它们 。Descriptivestatistics 类 在 一 系列 计算 中 存储 所 有 数据 ， 并 进行 这 些 更 新 。 
SummaryStatistics 类 (以 及 MultivariateSummaryStatistics 类 ) 并 不 存储 输入 给 它们 的 
任何 数据 。 相 反 ， 这 些 类 只 存储 相关 的 n、M 以 及 M,。 对 于 巨大 的 数据 集 ， 当 需要 均值 
或 标准 差 等 统计 量 时 ， 这 是 一 种 记录 统计 量 的 有 效 方式 ， 而 不 会 造成 庞大 的 存储 开销 或 者 
处 理 能 力 需 求 。 












































SummaryStatistics ss = new SummaryStatistics(); 


/* 该 类 并 不 存储 数据 ， 因 此 已 经 优化 为 一 次 仅 处 理 一 个 值 */ 
ss.addValue(1.0); 
ss.addValue(11.0); 
ss.addValue(5.0); 











/* 打印 报告 */ 
System.out.println(ss); 





与 DescriptiveStatistics 类 一 样 ，SummaryStatistics 类 也 有 toString() 方法 ， 该 方法 可 
以 打印 具有 良好 格式 的 报告 。 


SummaryStatistics: 

n: 3 

min: 1.0 

max: 11.0 

sum: 17.0 

mean: 5.666666666666667 

geometric mean: 3.8029524607613916 
variance: 25.333333333333332 
population variance: 16.88888888888889 
second moment: 50.666666666666664 

sum of squares: 147.0 

standard deviation: 5.033222956847166 
sum of logs: 4.007333185232471 


对 于 多 元 统计 ，MultivariateSummarystatistics 类 正好 类 似 于 其 一 维 情形 的 对 应 类 。 为 了 实 
例 化 这 个 类 ， 必 须 指 定 变量 的 维 数 ( 即 数据 集中 列 的 数目 )， 并 指明 输入 数据 是 否 是 样本 。 


通常 这 个 选项 应 当 设置 为 true， 但 要 注意 ， 若 忘记 设置 ， 则 默认 值 是 false， 这 将 带 来 不 良 
































的 后 果 。MultivariateSummaryStatistics 类 包含 了 记录 每 组 变量 之 间 协 方差 的 方法 。 把 构造 
方法 的 参数 isCovarianceBiasedCorrected 设置 为 true， 将 对 协 方差 采用 有 偏 的 校正 因子 。 














MultivariateSummaryStatistics mss = new MultivariateSummaryStatistics(3, true); 


/* 数据 可 以 是 二 维 数组 、 和 矩阵 ， 或 者 是 含有 double 型 数组 数据 域 的 类 */ 
double[] x1 = {1.0, 2.0, 1.2}; 

double[] x2 {11.0, 21.0, 10.2}; 

double[] x3 = {5.0, 7.0, 0.2}; 














HE 





/* 该 类 并 不 存储 数据 ， 因 此 已 经 优化 为 一 次 仅 处 理 
mss.addValue(x1); 
mss.addValue(x2); 
mss.addValue(x3); 


一 个 值 */ 


/* 打印 报告 */ 


System.out.println(mss); 


正如 在 Summarystatistics 类 中 ， 该 类 可 以 打印 有 格式 的 报告 ， 不 过 此 处 增加 了 协 方差 矩阵 。 


MultivartateSummaryStatistics: 

n: 3 

min: 1.0, 2.0, 0.2 

max: 11.0, 21.0, 10.2 

mean: 5.666666666666667, 10.0, 3.866666666666667 

geometric mean: 3.8029524607613916, 6.649399761150975, 1.3477328201610665 
sum of squares: 147.0, 494.0, 105.52 

sum of Logarithms: 4.007333185232471, 5.683579767338681, 0.8952713646500794 
standard deviation: 5.033222956847166, 9.848857801796104, 5.507570547286103 
covariance: Array2DRowRealMatrix{{25. 3333333333 ,49.0,24. 3333333333}, 
{49.0,97.0,51.0},{24. 3333333333 ,51.0,30.3333333333}} 





Uk 


然 ， 每 个 量 都 可 以 通过 其 获取 值 方法 获得 。 





int d = mss.getDimension(); 

long n = mss.getDimension(); 

double[] min = mss.getMin(); 

double[] max = mss.getMax(); 

double[] mean = mss.getMean(); 

double[] std = mss.getStandardDeviation(); 
RealMatrix cov = mss.getCovariance(); 


此 时 ， 在 SummaryStatistics 类 与 MultivariateSummaryStatistics 类 中 ， 还 没 
有 计算 三 阶 矩 与 四 阶 矩 ， 因 此 暂时 还 得 不 到 偏 度 与 峰 度 ， 它 们 正在 准备 中 。 





























3.3.2 ”统计 结果 的 归并 
也 可 以 对 非 归 一 化 的 统计 息 以 及 协和 矩 进行 归并 。 在 并 行 处 理 数据 分 块 ， 且 所 有 子 过 程 结束 
后 ， 对 结果 进行 归并 。 





这 种 任务 采用 AggregateSummaryStatistics 类 来 处 理 。 一 般 来 说 ， 统 计算 随 着 阶 数 递 增 而 
传播 。 换 句 话 说 ， 为 了 计算 三 阶 矩 M;， 将 需要 M, 与 M1。 因 此， 必须 先 计 算 并 更 新 最 高 阶 
的 矩 ， 然 后 向 下 进行 。 


例如 ， 如 前 所 述 ， 计 算 5 之 后 ， 用 下 式 更 新 M: 














oy 62 ô. 
M,=M,,+M,,+ nn (n nn, + ni) = 6(mM,, — 1M, + 4 (mM =m M, )—* 


然后 用 下 式 更 新 M: 





3 
on 


2 
n 


M,=M,,+M,,4 nn, (n ny) 





Ò. 
H 3(nM,, —n,M, | 


接 下 来 》 用 下 式 更 新 M: 


2 
_ 2,1 
M,=M,,+M,,+nn, 


最 后 ， 用 下 式 更 新 均值 : 


65, 


n 





x=xX +n, 





注意 ， 这 些 更 新 公式 适用 于 归并 n, > 1 的 两 个 数据 分 块 。 若 任何 分 块 只 有 单个 数据 (n, = 1), 
则 采用 前 一 节 中 的 增 量 更 新 公式 。 
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这 里 有 个 示例 阐明 了 对 痢 


这 将 打印 下 面 的 报告 ， 就 像 是 对 单一 数据 集 进行 计算 那样 : 




















// 下 列 3 个 概要 可 以 在 不 同时 间 从 3 台 不 同 的 机 器 上 产生 





7 


T 


SummaryStatistics ss1 = new SummaryStatistics(); 
ssi.addValue(1.0); 
ssi.addValue(11.0); 
ssi.addValue(5.0); 


SummaryStatistics ss2 = new SummaryStatistics(); 
ss2.addValue(2.0); 
ss2.addValue(12.0); 
ss2.addValue(6.0); 


SummaryStatistics ss3 = new SummaryStatistics(); 
ss3.addValue(0.0); 
ss3.addValue(10.0); 
ss3.addValue(4.0); 


// 下 列 操 作 可 以 在 上 述 操作 完成 之 后 的 任意 时 间 ， 在 任意 机 器 上 进行 





List<SummaryStatistics> ls = new ArrayList<>(); 
ls.add(ss1); 
ls.add(ss2); 
ls.add(ss3); 


StatisticalSummaryValues s = AggregateSummaryStatistics.aggregate(1s); 


System.out.println(s); 

















StatisticalSummaryVaLlues: 
n: 9 

min: 0.0 

max: 12.0 

mean: 5.666666666666667 
std dev: 4.444097208657794 
variance: 19.75 

sum: 51.0 


3.3.3 回归 


FA AF Ee AT AS HE — ik, HLA SimpleRegression 类 使 得 


立 的 统计 概要 所 进行 的 汇集 。 此 处 要 注意 ， 任 何 SummaryStatistics 
的 实例 都 可 以 进行 序列 化 ， 并 储存 以 供 将 来 使 用 。 











计 产 生 与 原始 统计 概要 相同 的 结果 。 


SimpleRegression rg = new SimpleRegression(); 


/* Anscombe 4 组 数据 中 的 x1 与 y1 的 x-y 对 */ 
double[][] xyData = {{10.0, 8.04}, {8.0, 6.95}, {13.0, 7.58}, 





回归 变 得 容易 。 汇 集 统 


{9.0, 8.81}, {11.0, 8.33}, {14.0, 9.96}, {6.0, 7.24}, 
{4.0, 4.26}, {12.0, 10.84}, {7.0, 4.82}, {5.0, 5.68}}; 


rg.addData(xyData) ; 


1] 

double[][] xyData2 = {{10.0, 8.04}, {8.0, 6.95}, {13.0, 7.58}, 
{9.0, 8.81}, {11.0, 8.33}, {14.0, 9.96}, {6.0, 7.24}, 
{4.0, 4.26}, {12.0, 10.84}, {7.0, 4.82}, {5.0, 5.68}}; 


SimpleRegression rg2 = new SimpleRegression(); 
rg2.addData(xyData); 











/* 对 rg 以 及 rg2 进 行 回归 的 合并 */ 
rg.append(rg2); 


/* 从 组 合 的 回归 中 获得 回归 结果 */ 

double alpha = rg.getIntercept(); // 3.0 

double alpha_err = rg.getInterceptStdErr(); // 1.12 
double beta = rg.getSlope(); // 0.5 

double beta_err = rg.getSlopeStdErr(); // 0.12 
double r2 = rg.getRSquare(); // 0.67 

















对 于 多 元 回归 ,MillerUpdatingRegression 类 可 通过 MillerUpdatingRegression.addObservation 
(double[] x, double y) 方法 或 者 MillerUpdatingRegression.addObservations(double[][] x, 


double[] y) 方法 进行 无 存储 的 回归 分 析 。 








int numVars = 3; 
boolean includeIntercept = true; 
MillerUpdatingRegression r = 
new MillerUpdatingRegression(numVars, includeIntercept); 
double[][] x = {{0, 0.5}, {1, 1.2}, {2, 2.5}, {3, 3.6}}; 
double[] y = {-1, 0.2, 0.9, 2.1}; 
r.addObservations(x, y); 
RegressionResults rr = r.regress(); 
double[] params = rr.getParameterEstimates(); 
double[] errs = rr.getStdErrorOfEstimates(); 
double r2 = rr.getRSquared(); 


3.4 数据 库 内 置 函 数 的 应 用 


大 多 数 数据 库 有 内 置 统计 汇集 函数 。 若 数据 已 经 在 MySQL 中 ， 则 不 必 把 数据 导入 到 Java 
应 用 中 ， 而 是 可 以 使 用 内 置 函数 。 用 GROUP BY 以 及 ORDER BY 并 组 合 WHERE 子 句 是 一 种 将 数 








CPU 














据 归 约 为 统计 概要 的 有 效 方式 。 记 住 ， 计 算 必 须 在 某 处 进行 ， 要 么 在 应 用 中 ， 要 么 在 数据 
库 服 务 器 上 
让 数据 库 性 能 对 CPU 造成 严重 影响 ， 则 利用 所 有 的 VO 带宽 就 可 以 了 。 其 他 时 候 ， 宁 可 让 











。 需 要 权衡 的 是 ， 数 据 是 否 足够 小 ， 从 而 不 会 引起 CPU 与 IO 的 问题 ? A AAR 














用 于 数据 库 应 用 ， 以 计算 所 有 统计 值 ， 只 用 一 点 点 VO 开销 把 结果 传 回 给 等 待 的 应 用 。 




















MySQL 中 ， 内 置 函数 STDDEV 返回 总 体 标 准 差 ， 采 用 更 具体 的 函数 STDDEV_ 
SAMP 与 STDDEV_POP 可 以 分 别 返 回 样本 标准 差 和 总 体 标准 差 。 




















例如 ， 可 以 用 各 种 内 置 函 数 查 询 表 格 。 以 下 是 从 销售 量 表格 中 得 到 的 AVG 与 STDDEV 收入 统 
计 的 示例 : 





SELECT city, SUM(revenue) AS total_rev, AVG(revenue) AS avg_rev, 
STDDEV(revenue) AS std_rev 
FROM sales_table WHERE <some criteria> GROUP BY city ORDER BY total_rev DESC; 

















主意 ， 可 以 直接 使 用 从 JDBC 查询 得 到 的 结果 ， 也 可 以 把 这 些 结果 直接 传人 到 构造 方 


a StatisticalSummaryValues(double mean, double variance, long count, double min, 


double max) 中 ， 以 供 将 来 使 用 。 假 设 有 像 下 面 这 样 的 查询 : 


SELECT city, AVG(revenue) AS avg_rev, 
VAR_SAMP(revenue) AS var_rev, 
COUNT( revenue) AS count_rev, 
MIN(revenue) AS min_rev, MAX(revenue) AS max_rev 
FROM sales_table WHERE <some criteria> GROUP BY city; 


当 通 过 数据 库 游标 进行 迭代 时 ， 可 以 (任意 地 ) 把 每 个 StatistialSummaryValues 实例 添加 
到 List 或 Map 中， 其 键 等 于 city, 


Map<String, StatisticalSummaryValues> revenueStats = new HashMap<>(); 


Statement st = c.createStatement(); 

ResultSet rs = st.executeQuery(selectSQL) ; 

while(rs.next()) { 

StatisticalSummaryValues ss = new StatisticalSummaryValues( 

rs.getDouble("avg_rev"), 
rs.getDouble('"var_rev" 
rs.getLong("count_rev"), 
rs.getDouble("min_rev"), 
rs.getDouble("max_rev") ); 


revenueStats.put(rs.getString("city"), ss); 


} 


rs.close(); 
st.close(); 


对 于 更 大 的 数据 集 ， 一 些 简单 而 杰出 的 数据 库 操作 ， 可 以 节省 大 量 IO 开销 。 











第 4 章 


数据 操作 





既然 你 已 经 知道 如 何 把 数据 输入 到 有 用 的 数据 结构 中 ， 就 可 以 利用 所 掌握 的 线性 代数 与 统 
计 学 知识 对 数据 进行 操作 。 把 数据 提交 给 学 习 算 法 之 前 ， 可 以 对 数据 进行 多 种 操作 ， 这 通 
常 称 为 预 处 理 (preprocessing)。 预 处 理 包 括 数据 清理 、 对 数据 归 一 化 或 缩放 、 把 数据 归 约 
至 较 小 的 规模 、 把 文本 值 编 码 为 数字 值 ， 以 及 把 数据 拆 分 为 不 同 部 分 以 用 于 训练 模型 与 测 
试 模型 。 通 常 ， 数 据 已 经 具有 一 种 或 者 另 一 种 格式 〈 例 如 List 或 double[][])， 学 习 例 程 
可 能 采用 任何 一 种 格式 ， 或 者 两 种 格式 都 用 。 此 外 ， 学 习 算 法 可 能 需要 知道 标签 是 二 值 的 
还 是 多 类 别 的 ， 或 者 是 采用 其 他 方式 编码 的 ， 例 如 文本 。 上 述 这 些 都 需要 考虑 ， 并 且 要 在 
数据 进入 学 习 算 法 之 前 做 好 准备 。 对 于 从 源头 得 到 原始 数据 ， 然 后 将 其 准备 好 用 于 学 习 算 
法 或 预测 算法 的 这 一 自动 化 工作 流程 ， 本 章 的 步骤 可 以 成 为 其 中 的 一 部 分 。 


4.1 转换 文本 数据 


许多 学 习 算法 或 预测 算法 都 需要 数值 输入 。 完 成 这 一 操作 最 简单 的 方式 之 一 是 创建 向 量 空 
间 模 型 ， 在 其 中 定义 一 个 已 知 维 数 的 向 量 ， 然 后 把 文本 片段 (乃至 单词 ) 的 集合 赋值 给 对 
应 的 向 量 集合 。 把 文本 转换 为 向 量 的 一 般 过 程 有 多 种 选择 和 变 体 。 此 处 假定 存在 大 量 文本 
(语料库 ) ， 可 以 把 它们 划分 为 句子 或 行 (文档 ) ， 然 后 进一步 分 为 单词 (标记 )。 注 意 语 料 
Æ (corpus)、 文 档 (document) 以 及 标记 (token) 由 用 户 定 义 。 





























4.1.1 从 文档 中 提取 标记 
对 于 每 个 文档 ， 需 要 提取 所 有 标记 。 因 为 有 许多 方法 来 处 理 这 个 问题 ， 所 以 可 以 创建 一 个 
接口 。 该 接口 有 个 方法 ， 该 方法 以 文档 字符 串 为 输入 ， 返 回 由 String 标记 组 成 的 数组 。 
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public interface Tokenizer { 
String[] getTokens(String document) ; 


} 


标记 可 能 有 许多 不 需要 的 字符 ， 例 如 标点 符号 、 数 字 或 者 其 他 字符 。 当 然 ， 这 完全 依赖 于 
应 用 。 在 本 例 中 ， 只 关心 常规 英语 单词 的 实际 内 容 ， 因 此 可 以 清理 标记 ， 使 其 只 接受 小 写 
字母 字符 。 引 入 最 小 标记 大 小 的 变量 ， 可 以 略 过 诸如 a、or、at 等 单词 。 


























public class SimpleTokenizer implements Tokenizer { 
private final int minTokenSize; 


public SimpleTokenizer(int minTokenSize) { 
this.minTokenSize = minTokenSize; 


} 


public SimpleTokenizer() { 
this(0); 
} 


@Override 
public String[] getTokens(String document) { 
String[] tokens = document.trim().split("\\s+"); 
List<String> cleanTokens = new ArrayList<>(); 
for (String token : tokens) { 
String cleanToken = token.trim().toLowerCase() 
.replaceAll("[^A-Za-z\']+", ""); 
if(cleanToken.length() > minTokenSize) { 
cleanTokens.add(cleanToken) ; 
} 
} 


return cleanTokens.toArray(new String[0]); 


4.1.2 利用 字典 

字典 (dictionary) 是 相关 词语 的 列表 ( 即 “ 词 汇 表 ”)。 实 现 字典 的 策略 不 止 一 种 。 重 要 的 
特征 是 ， 每 个 词语 需要 与 对 应 于 其 在 向 量 中 位 置 的 整数 值 相 联系 。 当 然 ， 这 可 以 是 能 通过 
位 置 查找 的 数组 ， 但 是 对 于 大 字典 ， 数 组 是 低 效 的 ， 采 用 Map 更 好 。 对 于 非常 大 的 字典 ， 
可 以 略 过 词语 存储 ， 采 用 散 列 方 法 。 通 常 来 说 ， 需 要 知道 字典 中 词语 的 数量 ， 以 便于 创建 
向 量 ， 还 要 知道 返回 特定 词语 索引 的 方法 。 注 意 整 型 (int) 不 能 是 nutL， 因 此 采用 装 箱 
类 型 Integer， 可 以 使 得 返回 索引 是 int 或 null。 

















THE 








public interface Dictionary { 
Integer getTermIndex(String term); 
int getNumTerms(); 





可 以 构造 从 Tokenizer 实例 中 搜集 得 到 的 准确 词语 的 字典 。 注 意 这 里 的 策略 是 为 每 个 项 添 
加 一 个 词语 以 及 一 个 整数 。 新 项 将 使 计数 器 递增 ， 重复 项 将 被 丢弃 ， 而 不 使 计数 器 递增 。 
在 这 种 情况 下 ，TermDictionary 类 需要 添加 新 项 的 方法 。 











public class TermDictionary implements Dictionary { 


private final Map<String, Integer> indexedTerms; 
private int counter; 


public TermDictionary() { 
indexedTerms = new HashMap<>(); 
counter = 0; 


} 


public void addTerm(String term) { 
if(!indexedTerms.containsKey(term)) { 
indexedTerms.put(term, counter++); 
} 
} 


public void addTerms(String[] terms) { 
for (String term : terms) { 
addTerm(term); 
} 
} 


@Override 
public Integer getTermIndex(String term) { 
return indexedTerms.get(term) ; 


} 


@Override 
public int getNumTerms() { 
return indexedTerms.size(); 
} 
} 


对 于 大 量词 语 ， 可 以 采用 散 列 方法 。 基 本 上 ， 用 每 个 词语 String 值 的 散 列 码 ， 然 后 用 该 散 
列 码 取 字 典 中 词语 总 数 的 模 。 当 词语 总 数 很 大 时 (大 约 100 万 ) ， 不 太 可 能 发 生 冲 突 。 注 
意 ， 与 TermDictionary 不 同 ， 不 需要 添加 词语 或 记录 词语 。 在 运行 时 将 计算 每 个 词语 的 索 
引 。 词 语 总 数 是 所 设置 的 常量 。 为 了 有 效 地 访问 散 列 表 ， 把 词语 总 数 设 置 为 2 是 个 不 错 的 
主意 。 设 置 为 大 约 2” 时 ， 大 约 是 100 万 个 词语 。 














public class HashingDictionary implements Dictionary { 
private int numTerms; // 2" 是 最 优 值 
public HashingDictionary() { 


// 2” = 1048576 
this(new Double(Math. pow(2,20)).intValue()); 
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public HashingDictionary(int numTerms) { 
this.numTerms = numTerms; 


} 


@Override 
public Integer getTermIndex(String term) { 
return Math.floorMod(term.hashCode(), numTerms); 


} 


@Override 
public int getNumTerms() { 
return numTerms; 


} 


4.1.3 文档 向 量化 


有 了 分 词 器 (tokenizer) 以 及 字典 之 后 ， 就 可 以 把 单词 列表 转换 为 能 传递 给 机 器 学 习 算法 
的 数值 。 最 直接 的 方法 是 首先 确定 字典 是 什么 ， 然 后 统计 在 句子 (或 需要 关注 的 文本 ) 中 
出 现 的 次 数 。 通 常 把 这 种 方法 称 为 词 袋 (bag of words)。 有 些 时 候 ， 只 想 知 道 单 词 是 否 出 
现 了 。 此 时 ， 在 向 量 中 放置 1， 而 不 是 记录 单词 出 现 的 次 数 。 




















public class Vectorizer { 


private final Dictionary dictionary; 
private final Tokenizer tokenzier; 
private final boolean isBinary; 


public Vectorizer(Dictionary dictionary, Tokenizer tokenzier, 
boolean isBinary) { 
this.dicttonary = dictionary; 
this.tokenzier = tokenzier; 
this.isBinary = isBinary; 


} 


public Vectorizer() { 
this(new HashingDictionary(), new SimpleTokenizer(), false); 


} 


public RealVector getCountVector (String document) { 
RealVector vector = new OpenMapRealVector(dictionary.getNumTerms()); 
String[] tokens = tokenzier.getTokens(document) ; 
for (String token : tokens) { 
Integer index = dictionary.getTermIndex(token) ; 
if(index != null) { 
if(isBinary) { 
vector.setEntry(index, 1); 
} else { 
vector.addToEntry(index, 1); // 增 量 ! 


} 





} 


return vector; 


} 


public RealMatrix getCountMatrix(List<String> documents) { 
int rowDimension = documents.size(); 
int columnDimension = dictionary.getNumTerms(); 
RealMatrix matrix = new OpenMapRealMatrix(rowDimension, columnDimension) ; 
int counter = 0; 
for (String document : documents) { 
matrix.setRowVector(counter++, getCountVector(document)); 


} 


return matrix; 


有 时 候 ， 我 们 想 要 减少 常用 词 的 作用 。 词 频 - 逆向 文档 频率 (TFIDF) 向 量 正 是 做 这 个 事 

的 。 当 词语 在 少数 文档 中 出 现 许 多 次 时 ，TFIDF 分 量 最 高 ， 当 词语 几乎 出 现在 所 有 文档 中 

时 ，TFIDF 分 量 最 低 。 注 意 ，TFIDF 正 是 词 频 乘 以 逆向 文档 频率 : TFIDF = TF x IDF, 

中 TF 是 词语 在 文档 中 出 现 的 次 数 (词语 的 计数 向 量 )，DF 是 包含 该 词语 的 文档 个 数 ，I 

则 是 文档 频率 (DF) 的 (14) 倒数 。 通 常 ， E i ee 

a 进 制 向 量 ， 随 后 处 理 每 个 文档 时 ， 对 这 些 向 量 累 计 求 和 以 得 到 DF。TFIDF 最 
见 的 形式 如 下 ， 其 中 Ny 是 所 处 理 文档 的 总 数 。 



























































TFIDF, , = TF, , log(N / DF,) 


这 仅 是 计算 TFIDF 的 策略 之 一 。 注 意 ， 若 和 N 或 DF 值 等 于 0， 对 数 函 数 会 出 现 问 题 。 茶 些 
策略 通过 加 上 小 因子 或 1， 以 避免 这 个 问题 ， 在 实现 时 ， 可 以 通过 设置 log(0) 等 于 0 来 应 
对 这 个 问题 。 通 常 ， 在 实现 时 ， 首 先 创建 关于 词语 计数 的 矩阵 ， 然 后 对 该 矩阵 进行 操作 ， 
把 每 个 词语 转换 为 其 加 权 的 TFIDF 值 。 因 为 这 些 矩 阵 通常 是 稀疏 的 ， 所 以 采用 优化 的 按照 
数量 级 进行 游 走 的 算 子 是 个 好 主意 



































public class TFIDF implements RealMatrixChangingVisitor { 


private final int numDocuments; 
private final RealVector termDocumentFrequency; 
double LogNumDocuments; 


public TFIDF(int numDocuments, RealVector termDocumentFrequency) { 
this.numDocuments = numDocuments; 
this.termDocumentFrequency = termDocumentFrequency; 
this. logNumDocuments = numDocuments > 0 ? Math. log(numDocuments) : 0; 


} 


@Override 
public void start(int rows, int columns, int startRow, int endRow, 
int startColumn, int endColumn) { 


// 不 匹配 
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} 


} 


@Override 

public double visit(int row, int column, double value) { 
double df = termDocumentFrequency.getEntry(column) ; 
double logDF = df > © ? Math.log(df) : 0.0; 
// TFIDF = TF, * Log(NMDF;) = TF; * ( log(N) - Log(DF;) ) 
return value * (logNumDocuments - logDF); 


} 


@Override 
public double end() { 
return 0.0; 


} 


于 是 ，TFIDFVectorizer 用 到 了 (针对 词语 的 ) 计数 以 及 二 进 制 计数 。 


public class TFIDFVectorizer { 


private Vectorizer vectorizer; 
private Vectorizer binaryVectorizer; 
private int numTerms; 


public TFIDFVectorizer(Dictionary dictionary, Tokenizer tokenzier) { 
vectorizer = new Vectorizer(dictionary, tokenzier, false); 
binaryVectorizer = new Vectorizer(dictionary, tokenzier, true); 
numTerms = dictionary.getNumTerms(); 


} 


public TFIDFVectorizer() { 
this(new HashingDictionary(), new SimpleTokenizer()); 


} 


public RealVector getTermDocumentCount(List<String> documents) { 
RealVector vector = new OpenMapRealVector(numTerms); 
for (String document : documents) { 
vector .add(binaryVectorizer .getCountVector (document)); 
} 
return vector; 


} 


public RealMatrix getTFIDF(List<String> documents) { 
int numDocuments = documents.size(); 
RealVector df = getTermDocumentCount(documents); 
RealMatrix tfidf = vectorizer.getCountMatrix(documents) ; 
tfidf.walkInOptimizedOrder(new TFIDF(numDocuments, df)); 
return tfidf; 

















} 
} 
下 面 是 附录 A 给 出 的 观点 数据 集 (sentiment dataset) 的 应 用 示例 。 
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/* 观点 数据 …… 见 附录 A */ 


Sentiment sentiment = new Sentiment(); 


/* 创建 所 有 词语 的 字典 */ 


TermDictionary termDictionary = new TermDictionary(); 


/* 需要 基本 的 分 词 器 来 对 文本 进行 解析 */ 


SimpleTokenizer tokenizer = new SimpleTokenizer(); 




















/* 把 观点 数据 集中 的 所 有 词语 添加 到 字典 中 */ 

for (String document : sentiment.getDocuments()) { 
String[]tokens = tokenizer.getTokens(document) ; 
termDictionary.addTerms(tokens); 








} 
/* 创建 关于 每 个 句子 单词 数 的 矩阵 */ 


Vectorizer vectorizer = new Vectorizer(termDictionary, tokenizer, false); 
RealMatrix counts = vectorizer.getCountMatrix(sentiment.getDocuments()); 





[Rs 或 者 创建 二 进 制 计数 器 */ 
Vectorizer binaryVectorizer = new Vectorizer(termDictionary, tokenizer, true); 
RealMatrix binCounts = binaryVectorizer.getCountMatrix(sentiment.getDocuments()); 


[Ree 或 者 创建 TFIDF 和 矩阵 */ 
TFIDFVectorizer tfidfVectorizer = new TFIDFVectorizer(termDictionary, tokenizer); 
RealMatrix tfidf = tfidfVectorizer.getTFIDF(sentiment.getDocuments()); 


4.2 ”数值 数据 的 缩放 与 归 一 化 

应 当 从 类 中 获得 数据 还 是 使 用 数组 ?此 处 的 目标 是 对 数据 集中 的 每 个 元 素 进 行 某 种 变换 ， 
即 f(x )) 一 二 )。 对 数据 进行 缩放 有 两 种 基本 方式 : 按 列 或 按 行 。 按 列 缩放 时 ， 只 需要 收 
集 每 一 列 数 据 的 统计 量 。 有 具体 说 来 ， 需 要 最 小 值 、 最 大 值 、 均 值 以 及 标准 差 。 因 此 ， 如 果 
把 整个 数据 集 添加 到 MultivariateSummaryStatistics 的 实例 中 ， 将 得 到 上 述 所 有 统计 量 。 
按 行 缩放 时 ， 需 要 对 每 一 行进 行 L1 或 上 2 归 一 化 。 可 以 把 这 些 值 存储 在 RealVector 的 实 
例 中 ， 它 可 能 是 稀 玻 的 。 








若 对 数据 进行 缩放 以 训练 模型 ， 则 要 保留 所 使 用 过 的 任何 最 小 值 、 最 大 值 、 
均值 或 标准 差 。 在 转换 将 用 来 做 预测 的 新 数据 集 时 ， 必 须 使 用 相同 的 技术 ， 
包括 所 存储 的 参数 。 注 意 ， 如 果 把 数据 拆 分 为 训练 集 、 验 证 集 和 测试 集 ， 那 
么 要 对 训练 集 数 据 进行 缩放 ， 并 用 那些 值 (例如 均值 ) 对 验证 集 和 测试 集 进 
行 缩放 ， 使 得 缩放 后 的 数据 集 是 无 偏 的 。 

















4.2.1 对 列 进行 缩放 
对 列 进行 缩放 的 一 般 形式 是 采用 RealMatrixChangingVisitor 类 ， 将 预先 算 好 的 关于 列 的 统 
计量 传 入 构造 方法 中 。 当 对 和 矩阵 的 每 个 元 素 进 行 运算 时 ,会 用 到 相应 的 列 统 计量 。 
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public class MatrixScalingOperator implements RealMatrixChangingVisitor { 
MultivariateSummaryStatistics mss; 


public MatrixScalingOperator(MultivariateSummaryStatistics mss) { 
this.mss = mss; 


} 


@Override 
public void start(int rows, int columns, int startRow, int endRow, 
int startColumn, int endColumn) { 


// 什么 也 不 做 
} 


@Override 

public double visit(int row, int column, double value) { 
// 此 处 实现 特定 的 类 型 

} 


@Override 
public double end() { 
return 0.0; 


} 
} 
1. 最 小 值 - 最 大 值 缩放 
最 小 值 - 最 大 值 缩放 可 以 确保 每 列 各 自 的 最 小 值 为 0， 最 大 值 为 1。 可 以 对 第 7 列 的 每 个 元 
素 i 用 该 列 的 最 小 值 与 最 大 值 进行 变换 。 


这 可 以 通过 下 面 的 代码 实现 : 
public class MatrixScalingMinMaxOperator implements RealMatrixChangingVisitor { 


@Override 

public double visit(int row, int column, double value) { 
double min = mss.getMin()[column]; 
double max = mss.getMax()[column]; 
return (value - min) / (max - min); 


2 


有 时 候 想 要 设 定 下 限 a 与 上 限 (而 不 是 0 与 1)。 此 时 ， 先 计算 关于 下 限 为 0、 上 限 为 1 
的 数据 缩放 ， 再 进行 第 二 轮 缩放 。 




















xj") =x, (b-a)+a 





2. 将 数据 居中 

将 数据 相对 于 均值 居中 ， 可 使 得 列 数据 的 平均 值 变 为 0。 然 而 ， 因 为 所 处 理 的 数据 是 没有 
大 小 限制 的 ， 所 以 仍然 有 异常 的 最 小 值 与 最 大 值 。 一 列 中 的 每 个 值 可 以 根据 该 列 的 均值 进 
行 变换 。 



































实现 上 述 操 作 的 代码 如 下 : 


@Override 

public double visit(int row, int column, double value) { 
double mean = mss.getMean()[column]; 
return value - mean; 


3. 单位 正 态 缩放 

单位 正 态 缩放 也 称 作 z BL (z-score)。 它 对 列 中 的 每 个 数据 点 进行 两 次 缩放 ， 先 以 均值 为 
中 心 使 数据 居中 ， 再 除 以 标准 差 ， 使 得 数据 点 成 为 单位 正 态 分 布 的 一 员 。 变 换 之 后 ， 每 一 
列 的 平均 值 将 是 0， 该 分 布 中 大 多 数值 会 小 于 1， 虽 然 这 是 一 种 分 布 ， 但 无 法 保证 这 一 点 ， 
因为 数值 大 小 是 不 受 限 制 的 。 





实现 代码 如 下 : 


@Override 

public double visit(int row, int column, double value) { 
double mean = mss.getMean()[column]; 
double std = mss.getStandardDeviation() [column]; 
return (value - mean) / std; 


4.2.2 Ne 
当 每 行 数据 都 是 关于 所 有 变量 的 一 条 记录 时 ， 对 行 数据 缩放 通常 是 进行 L1 或 者 L2 归 一 化 。 


Ik 





public class MatrixScalingOperator implements RealMatrixChangingVisitor { 
RealVector normals; 
public MatrixScalingOperator(RealVector normals) { 


this.normals = normals; 


@Override 
public void start(int rows, int columns, int startRow, int endRow, 
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int startColumn, int endColumn) { 
// 什么 也 不 做 
} 


@Override 

public double visit(int row, int column, double value) { 
// 实现 

} 


@Override 
public double end() { 
return 0.0; 


} 
1. L1 归 一 化 
在 这 种 情况 下 ， 对 每 行 数据 进行 归 一 化 ， 使 得 每 一 行 (绝对) 值 之 和 为 1， 方法 是 把 第 i 
行 的 每 个 元 素 7 都 除 以 该 行 的 Ll 范 数 。 





实现 代码 如 下 : 


@Override 

public double visit(int row, int column, double value) { 
double rowNormal = normals.getEntry(row); 
return ( rowNormal > 0 ) ? value / rowNormal : 0; 


} 
2. L2 归 一 化 
同样 ，L2 归 一 化 也 是 针对 行 缩 放 ， 而 不 是 针对 列 。 在 这 种 情况 下 ， 对 第 i 行 的 每 个 元 素 j 
除 以 该 行 的 L2 范 数 来 对 每 一 行 数据 进行 归 一 化 。 之 后 ， 每 一 行 的 长 度 等 于 1。 











* Ñj 
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实现 代码 如 下 : 
@Override 
public double visit(int row, int column, double value) { 


double rowNormal = normals.getEntry(row); 
return ( rowNormal > 0 ) ? value / rowNormal : 0; 


4.2.3 和 矩阵 的 缩放 算 子 


因为 要 就 地 修改 矩阵 ， 所 以 可 以 收集 缩放 算法 ， 采 用 静态 方法 来 编写 。 





public class MatrixScaler { 


public static void minmax(RealMatrix matrix) { 
MultivariateSummaryStatistics mss = getStats(matrix); 
matrix.walkInOptimizedOrder(new MatrixScalingMinMaxOperator(mss)); 


} 


public static void center(RealMatrix matrix) { 
MultivariateSummaryStatistics mss = getStats(matrix); 
matrix.walkInOptimizedOrder( 
new MatrixScalingOperator(mss, MatrixScaleType.CENTER) ); 


} 


public static void zscore(RealMatrix matrix) { 
MultivariateSummaryStatistics mss = getStats(matrix); 
matrix.walkInOptimizedOrder( 
new MatrixScalingOperator(mss, MatrixScaleType.ZSCORE)); 


} 


public static void 11(RealMatrix matrix) { 
RealVector normals = getLiNormals(matrix); 
matrix.walkInOptimizedOrder( 
new MatrixScalingOperator(normals, MatrixScaleType.L1)); 


} 


public static void 12(RealMatrix matrix) { 
RealVector normals = getL2Normals(matrix); 
matrix.waLlkInOptimizedOrder( 
new MatrixScalingOperator(normals, MatrixScaleType.L2)); 


} 


private static RealVector getLiNormals(RealMatrix matrix) { 

RealVector normals = new OpenMapRealVector(matrix.getRowDimension()); 
for (int i = 0; i < matrix.getRowDimension(); i++) { 

double liNorm = matrix.getRowVector(i).getL1Norm(); 

if (liNorm > 0) { 

normals.setEntry(i, liNorm); 

} 
} 
return normals; 


} 


private static RealVector getL2Normals(RealMatrix matrix) { 

RealVector normals = new OpenMapRealVector(matrix.getRowDimension()); 
for (int i = 0; i < matrix.getRowDimension(); i++) { 

double L2Norm = matrix.getRowVector(i).getNorm(); 

if (12Norm > 0) { 

normals.setEntry(i, L2Norm); 

} 
} 
return normals; 


} 


private static MultivariateSummaryStatistics getStats(RealMatrix matrix) { 
MultivariateSummaryStatistics mss = 
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new MultivariateSummaryStatistics(matrix.getColumnDimension(), true); 
for (int i = 0; i < matrix.getRowDimension(); i++) { 
mss.addValue(matrix.getRow(i)); 
} 
return mss; 
} 
} 


现在 就 很 容易 使 用 缩放 算法 了 。 


RealMatrix matrix = new OpenMapRealMatrix(10, 3); 
matrix.addToEntry(0, 0, 1.0); 


matrix.addToEntry(0, 2, 2.0); 
matrix.addToEntry(1, 0, 1.0); 
matrix.addToEntry(2, 0, 3.0); 
matrix.addToEntry(3, 1, 5.0); 
matrix.addToEntry(6, 2, 1.0); 
matrix.addToEntry(8, 0, 8.0); 
matrix.addToEntry(9, 1, 3.0); 


/* 就 地 对 矩阵 进行 缩放 */ 


MatrixScaler.minmax(matrix); 


4.3 ”将 数据 降 维 至 主 成 分 

主 成 分 分 析 (principal components analysis, PCA) 的 目标 是 把 某 个 数据 集 变 换 为 另 一 个 维 
数 较 少 的 数据 集 。 可 以 把 其 看 作对 m x n HERE X AARC, 结果 是 六 x k ERE X,, BH 
X= AX), 其 中 <n。 


通过 线性 代数 算法 寻找 特征 向 量 与 特征 值 ， 可 以 完成 该 操作 。 这 种 变换 的 好 处 之 一 是 ， 新 
的 维度 按照 从 最 主要 的 到 最 次 要 的 进行 排列 。 对 于 多 维 数据 ， 有 时 可 以 通过 绘制 最 主要 的 
两 个 维度 的 数据 来 了 解 任何 重要 的 关系 。 在 图 4-1 中 ， 绘 制 了 六 尾 属 植物 (Iris) 数据 集 
最 主要 的 两 个 成 分 〈 见 附录 A). Iris 数据 集 是 四 维特 征集 ， 有 3 个 可 能 的 标签 。 在 这 个 图 
中 ， 通 过 绘制 投影 到 两 个 最 主要 成 分 的 原始 数据 ， 可 以 看 到 3 种 类 别 的 区 别 。 若 从 原始 数 
据 集 绘制 任意 两 个 维度 ， 则 并 不 能 看 出 这 种 区 别 。 

然而 ， 对 于 高 维 数据 ， 需 要 一 种 更 稳健 的 方式 来 决定 需要 保留 的 主 成 分 个 数 。 因 为 主 成 分 
是 按照 从 最 主要 的 到 最 次 要 的 进行 排列 的 ， 所 以 可 通过 计算 归 一 化 的 关于 特征 值 4 的 累加 
和 ， 来 确切 表示 主 成 分 的 可 释 方差 (explained variance). 
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B 4-1: Iris 数据 集 的 前 两 个 主 成 分 
此 处 ， 每 个 额外 的 成 分 解释 了 额外 百分比 的 数据 。 于 是 ， 可 释 方差 有 两 种 用 处 。 当 显 式 地 





选择 一 定数 目的 主 成 分 时 ， 可 以 计算 出 多 少 原始 数据 可 以 被 这 种 新 的 变换 所 解释 。 男 一 种 
情况 下 ， 可 以 对 可 释 方差 向 量 进行 迭代 ， 当 有 特定 数目 (例如 个 ) 主 成 分 能 够 解释 期 望 








比例 的 原始 数据 时 ， 就 可 以 停止 迭代 。 





实现 主 成 分 分 析 时 ， 有 几 种 计算 特征 值 与 特征 向 量 的 策略 。 最 终 ， 仅 需要 获取 变换 后 的 数 
据 。 在 PCA 主 类 中 仅 给 出 框架 ， 而 在 另外 的 类 中 给 出 实现 细 季 ， 是 一 种 不 错 的 策略 模式 。 


public class PCA { 
private final PCAImplementation pCAImplementation; 


public PCA(RealMatrix data, PCAImplementation pCAImplementation) { 
this.pCAImplementation = pCAImplementation; 
this.pCAImplementation.compute(data) ; 


public RealMatrix getPrincipalComponents(int k) { 
return pCAImplementation.getPrincipalComponents(k) ; 


} 





数据 操作 | 103 


public RealMatrix getPrincipalComponents(int k, RealMatrix otherData) { 
return pCAImplementation.getPrincipalComponents(k, otherData) ; 


} 


public RealVector getExplainedVariances() { 
return pCAImplementation.getExplainedVariances(); 
} 


public RealVector getCumulativeVariances() { 

RealVector variances = getExplainedVariances(); 

RealVector cumulative = variances.copy(); 

double sum = 0; 

for (int i = 0; i < cumulative.getDimension(); i++) { 
sum += cumulative.getEntry(i); 
cumulative.setEntry(i, sum); 

} 

return cumulative; 


} 


public int getNumberOfComponents(double threshold) { 
RealVector cumulative = getCumulativeVariances(); 
int numComponents=1; 
for (int i = 0; i < cumulative.getDimension(); i++) { 
numComponents = i + 1; 
if(cumulative.getEntry(i) >= threshold) { 
break; 
} 


} 
return numComponents; 

} 

public RealMatrix getPrincipalComponents(double threshold) { 
int numComponents = getNumberOfComponents(threshold) ; 
return getPrincipalComponents(numComponents) ; 


} 


public RealMatrix getPrincipalComponents(double threshold, 
RealMatrix otherData) { 
int numComponents = getNumberOfComponents(threshold) ; 
return getPrincipalComponents(numComponents, otherData) ; 


} 
然后 ， 可 以 为 把 输入 数据 分 解 为 其 主 成 分 的 后 续 方 法 提供 一 个 PCAImpLementation 接口 。 
public interface PCAImplementation { 
void compute(RealMatrix data); 
RealVector getExpLainedVariances(); 
RealMatrix getPrincipalComponents(int numComponents) ; 


RealMatrix getPrincipalComponents(int numComponents, RealMatrix otherData); 
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4.3.1 协 方差 方法 
计算 PCA 的 一 种 方法 是 寻找 天 的 协 方差 矩阵 的 特征 分 解 。( 列 数据 关于 列 均值 ) 居中 的 抵 
阵 克 的 主 成 分 是 协 方差 矩阵 的 特征 向 量 。 








因为 需要 将 两 个 可 能 很 大 的 矩阵 相 乘 ， 所 以 这 种 协 方差 计算 方法 是 计算 密集 的 。 然 而 ， 第 3 
章 中 探讨 了 关于 计算 协 方差 的 有 效 更 新 公式 ， 它 不 需要 和 矩阵 转 置 。 当 使 用 Apache Commons 
Math 的 Covariance 类 ,或 者 其 他 实现 了 它 的 类 (例如 MultivariateSummaryStatistics 类 ) 
时 ， 采 用 了 有 效 的 更 新 公式 。 因 此 ， 协 方差 矩阵 C 可 以 分 解 为 下 式 : 





C= VDV 





其 中 ,V 的 列 是 特征 向 量 ,，D 的 对 角 元 素 是 特征 值 。Apache Commons Math 的 实现 把 特征 
E (以 及 相应 的 特征 向 量 ) 从 最 大 到 最 小 排列 。 通 常 ， 只 需要 磊 个 成 分 ， 因 此 只 需要 严 的 
前 X 列 。 通 过 和 矩阵 相 乘 ， 可 以 把 相对 于 均值 居中 的 数据 投影 到 新 成 分 上 。 














X, =(X -X)V, 


以 下 是 采用 协 方差 方法 实现 的 主 成 分 分 析 : 
public class PCAEIGImplementation implements PCAImplementation { 


private RealMatrix data; 

private RealMatrix d; // 特征 值 矩 阵 
private RealMatrix v; // 特征 向 量 和 矩阵 
private RealVector explainedVariances; 
private EigenDecomposition eig; 

private final MatrixScaler matrixScaler; 

















public PCAEIGImplementation() { 
matrixScaler = new MatrixScaler(MatrixScaleType.CENTER) ; 


} 


@Override 
public void compute(RealMatrix data) { 
this.data = data; 
eig = new EigenDecomposition(new Covartance(data).getCovarianceMatrix()); 
d = eig.getD(); 
v = eig.getV(); 
} 


@Override 

public RealVector getExplainedVariances() { 
int n = eig.getD().getColumnDimension(); //colD = rowD 
explainedVariances = new ArrayRealVector(n); 
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double[] eigenValues = eig.getRealEigenvalues(); 
double cumulative = 0.0; 
for (int i = 0; i < n; i++) { 
double var = eigenValues[i]; 
cumulative += var; 
expLainedVariances.setEntry(i, var); 





} 
/* 用 向 量 除 以 最 终 (最 大 ) 的 累加 和 ， 使 得 可 释 方差 最 大 为 1 */ 


return explainedVariances.mapDivideToSelLf (cumulative); 


} 


@Override 

public RealMatrix getPrincipalComponents(int k) { 
int m = eig.getV().getColumnDimension(); // rowD = colD 
matrixScaler.transform(data) ; 


return data.multiply(eig.getV().getSubMatrix(0, m-1, 0, k-1)); 


} 


@Override 
public RealMatrix getPrincipalComponents(int numComponents, 
RealMatrix otherData) { 
int numRows = v.getRowDimension(); 
matrixScaler.transform(otherData); 
return otherData.multiply( 
v.getSubMatrix(@, numRows-1, ©, numComponents-1)); 


} 


例如 ， 接 下 来 可 以 用 PCAEIGImplementation 获得 前 3 个 主 成 分 ， 或 者 获 
释 方 差 的 所 有 成 分 : 


/* 采用 特征 分 解 实现 * 
PCA pca = new PCA(data, new PCAEIGImplementation()); 





/* 获得 前 3 个 成 分 */ 
RealMatrix pc3 = pca.getPrincipalComponents(3); 


/* 获得 能 够 满足 56% 可 释 方 差 所 需 的 那么 多 成 分 */ 


RealMatrix pct = pca.getPrincipalComponents(.5); 


4.3.2 ”SVD 方法 


得 可 以 提供 50% 可 


#iX — XEBA m FF n 列 且 相对 于 均值 居中 的 数据 集 ， 则 主 成 分 可 以 按 下 式 计算 : 


X-X =USV' 


注意 ， 对 于 我 们 熟悉 的 奇异 值 分 解 4= USV, ERE V AIAI ae oe PPA 





向 量 ， 特 征 值 可 以 


从 和 矩阵 忆 的 对 角 线 通 过 4 =》 (m-l, m 是 数据 行 数 。 完 成 了 相对 于 均值 居中 的 矩 





阵 X 的 奇异 值 分 解 之 后 ， 投 影 如 下 式 : 

















BERD AR E THERE U KIAT k IILAN AEAII k x 天子 阵 。 采 用 原先 相对 于 均值 居中 
的 数据 以 及 特征 向 量 计算 投影 也 是 正确 的 。 











X, =(X -X)Vh, 


PES RR TIERE 天 的 前 大 列 。 当 采用 已 有 特征 向 量 对 新 数据 集 进 行 转换 时 ， 采 用 这 个 表 
达 式 。 这 个 形式 与 前 一 刷 的 特征 分 解 方法 相同 。 





因为 最 多 有 p = min(m, n) 个 奇异 值 ， 所 以 Apache Commons Math 实现 的 是 瘦 (compact) 
SVD, FÆ, EA% 2 章 讨论 的 那样 ， 不 需要 计算 完全 的 SVD。 下 面 是 主 成 分 分 析 的 一 种 
SVD 实现 ， 也 是 推荐 的 方法 。 





tr 














public class PCASVDImplementation implements PCAImplementation { 


private RealMatrix u; 

private RealMatrix s; 

private RealMatrix v; 

private MatrixScaler matrixScaler; 
private SingularValueDecomposition svd; 


@Override 
public void compute(RealMatrix data) { 


} 


MatrixScaler.center (data); 

svd = new SingularValueDecomposition(data) ; 
u = svd.getU(); 

s = svd.getS(); 

v = svd.getV(); 


@Override 
public RealVector getExplainedVariances() { 


} 


double[] singularValues = svd.getSingularValues(); 
int n = singularValues. length; 
int m = u.getRowDimension(); // U0 的 行 数 与 数据 中 的 相同 
RealVector explainedVariances = new ArrayRealVector(n); 
double sum = 0.0; 
for (int i = 0; i < n; i++) { 
double var = Math.pow(singularValues[i], 2) / (double)(m-1); 
sum += var; 
expLainedVariances.setEntry(i, var); 
} 
/* 用 向 量 除 以 最 终 (最 大 ) 的 累加 和 ， 使 得 可 解释 方差 最 大 为 1*/ 


return explainedVariances.mapDivideToSelf(suym); 

















@Override 
public RealMatrix getPrincipalComponents(int numComponents) { 


int numRows = svd.getU().getRowDimension(); 
/* 子 阵 的 边界 是 包含 在 内 的 */ 


RealMatrix uk = u.getSubMatrix(0, numRows-1, 0, numComponents-1); 
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RealMatrix sk = s.getSubMatrix(0, numComponents-1, 0, numComponents-1); 
return uk.multiply(sk); 
} 


@Override 

public RealMatrix getPrincipalComponents(int numComponents, 
RealMatrix otherData) { 
matrixScaler.transform(otherData); 
int numRows = v.getRowDimension(); 
// 子 阵 的 索引 是 包含 在 内 的 


return otherData.multiply(v.getSubMatrix(0, numRows-1, 0, numComponents-1)); 








} 
然后 ， 为 了 实现 它 ， 采 用 下 列 代码 : 


/* 采用 奇异 值 分 解 实现 */ 
PCA pca = new PCA(data, new PCASVDImplementation()); 


/* 获得 前 3 个 成 分 */ 


RealMatrix pc3 = pca.getPrincipalComponents(3); 


/* 获得 能 够 满足 56% 可 释 方 差 所 需 的 那么 多 成 分 */ 


RealMatrix pct = pca.getPrincipalComponents(.5); 


44 创建 训练 集 、 验 证 集 及 测试 集 

对 于 监督 型 学 习 ， 用 数据 集 的 一 部 分 建立 模型 ， 然 后 用 测试 集 进行 预测 ，( 用 测试 集 的 已 
知 标签 ) 看 预测 是 否 正确 。 有 时 ， 在 训练 过 程 中 需要 第 三 个 集合 ， 以 验证 模型 参数 ， 这 个 
集合 称 作 验证 集 (validation set) 。 





用 训练 集训 练 模型 ， 用 验证 集 选 择 模型 ， 最 后 用 测试 集 计算 模 型 误差 。 我 们 至 少 有 两 种 选 
择 。 第 一 种 是 从 随机 整数 中 采样 ， 然 后 根据 这 些 采样 的 随机 整数 选择 数组 或 矩阵 的 一 部 分 
采样 。 第 二 种 是 对 数据 自身 重新 打 乱 次 序 ， 成 为 List， 并 提取 一 些 子 列表 。 在 所 提取 的 这 
些 子 列表 中 ， 每 种 类 型 的 数据 集 长 度 必 须 符合 需要 。 




















44.1 基于 索引 的 重新 采样 
为 数据 集 的 每 个 点 创建 索引 。 


public class Resampler { 


RealMatrix features; 

RealMatrix labels; 

List<Integer> indices; 
List<Integer> trainingIndices; 
List<Integer> validationIndices; 
List<Integer> testingIndices; 
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int[] rowIndices; 
int[] test; 
int[] validate; 


public Resampler(RealMatrix features, RealMatrix labels) { 
this.features = features; 
this.labels = labels; 
indices = new ArrayList<>(); 


} 


public void calculateTestTrainSplit(double testFraction, long seed) { 


Random rnd = new Random(seed) ; 

for (int i = 1; i <= features.getRowDimension(); i++) { 
indices.add(i); 

} 

Collections.shuffle(indices, rnd); 

int testSize = new Long(Math. round( 

testFraction * features.getRowDimension())).intVaLlue(); 

/* subList 包 括 起 始 索引 ， 但 是 不 包括 结束 索引 */ 


testingIndices = indices.subList(@, testSize); 


trainingIndices = indices.subList(testSize, features.getRowDimension()); 


} 


public RealMatrix getTrainingFeatures() { 

int numRows = trainingIndices.size(); 

rowIndices = new int[numRows]; 

int counter = 0; 

for (Integer trainingIndex : trainingIndices) { 
rowIndices[counter] = trainingIndex; 

} 

counter++; 

int numCols = features.getCoLumnDimension(); 

int[] columnIndices = new int[numCols]; 

for (int i = 0; i < numCols; i++) { 
columnIndices[i] = i; 

} 


return features.getSubMatrix(rowIndices, columnIndices) ; 


此 处 是 应 用 Iris 数据 集 的 示例 。 


Iris iris = new Iris(); 


Resampler resampler = new Resampler(iris.getFeatures(), iris.getLabels()); 


resampler.calculateTestTrainSplit(0.40, OL); 


RealMatrix trainFeatures = resampler.getTrainingFeatures(); 
RealMatrix trainLabels = resampler.getTrainingLabels(); 
RealMatrix testFeatures = resampler.getTestingFeatures(); 
RealMatrix testLabels = resampler.getTestingLabels(); 
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.4.2 ”基于 列表 的 重新 采样 


4 

在 一 些 情况 下 ， 可 能 已 经 把 数据 定义 为 对 象 的 集合 。 例 如 ， 可 能 有 关于 Record 类 型 的 
List， 其 中 包含 每 个 数据 记录 〈 行 ) 的 数据 。 于 是 ， 直 接 的 方法 是 建立 基于 List 的 重新 采 
样 器 ， 它 采用 泛 型 T。 




















public class Resampling<T> { 


private final List<T> data; 

private final int trainingSetSize; 
private final int testSetSize; 
private final int validationSetSize; 


public Resampling(List<T> data, double testFraction, long seed) { 
this(data, testFraction, 0.0, seed); 


} 


public Resampling(List<T> data, double testFraction, 
double validationFraction, long seed) { 
this.data = data; 
validationSetSize = new Double( 
validationFraction * data.size()).intValue(); 
testSetSize = new Double(testFraction * data.size()).intValue(); 
trainingSetSize = data.size() - (testSetSize + validationSetSize) ; 
Random rnd = new Random(seed) ; 
Collections.shuffle(data, rnd); 
} 


public int getTestSetSize() { 
return testSetSize; 


} 


public int getTrainingSetSize() { 
return trainingSetSize; 


} 


public int getValidationSetSize() { 
return validationSetSize; 


} 


public List<T> getValidationSet() { 
return data.subList(0, validationSetSize); 


} 


public List<T> getTestSet() { 
return data.subList(validationSetSize, validationSetSize + testSetSize); 


} 


public List<T> getTrainingSet() { 
return data.subList(validationSetSize + testSetSize, data.size()); 


} 





给 定 预先 定义 的 Record 类 ， 可 以 像 这 样 使 用 重新 采样 器 : 





Resampling<Record> resampling = new Resampling<>(data, 0.20, OL); 

// Resampling<Record> resampling = new Resampling<>(data, 0.20, 0.20, OL); 
List<Record> testSet = resampling.getTestSet(); 

List<Record> trainingSet = resampling.getTrainingSet(); 

List<Record> validationSet = resampling.getValidationSet(); 


4.4.3 “小 批量 

在 几 种 学 习 算 法 中 ， 从 大 得 多 的 数据 集中 随机 采样 (100 个 数据 点 的 规模 ) 小 批量 输入 数据 
是 有 利 的 。 在 这 个 任务 中 ， 可 以 重用 MatrixResampler 的 代码 。 重 要 的 是 要 记 住 ， 当 指定 批 
量 大 小 时 ， 要 特别 指明 是 测试 集 ， 而 不 是 训练 集 ， 如 同 MatrixResampler 中 实现 的 那样 。 











Uk 





public class Batch extends MatrixResampler { 


public Batch(RealMatrix features, RealMatrix labels) { 
super(features, labels); 


} 


public void calcNextBatch(int batchSize) { 
super.calculateTestTrainSplit(batchSize) ; 


public RealMatrix getInputBatch() { 
return super.getTestingFeatures(); 


} 


public RealMatrix getTargetBatch() { 
return super.getTestingLabels(); 


} 


45 标签 的 编码 
若 拿 到 的 标签 是 文本 字段 ， 例 如 red 或 blue， 则 可 以 把 它们 转换 为 整数 ， 以 供 进 一 步 处 理 。 


处 理 分 类 算法 时 ， 把 输出 变量 每 个 独特 的 实例 称 作 类 别 (class)。 回 想 一 
F, class 是 Java 的 关键 字 ， 因 此 我 们 必须 用 别 的 术语 ， 例 如 className, 
classLabel 或 者 classes (对 于 复数 )。 当 用 classes 作为 List 的 名 称 来 编写 
for...each 循环 时 ， 要 注意 集成 开发 环境 (IDE) 的 代码 自动 补 全 功能 。 


























4.5.1 泛 型 编码 器 
以 下 是 关于 泛 型 T 的 标签 编码 器 的 实现 ， 注 意 它 双 
果 类 别 就 是 其 在 ArrayList 中 的 位 置 。 





| 建 从 0 到 一 1 的 类 别 。 换 句 话 说 ， 结 
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public class LabelEncoder<T> { 


private final List<T> classes; 


public LabelEncoder(T[] labels) { 
classes = Arrays.asList(labels); 


} 


public List<T> getClasses() { 
return Classes; 


public int encode(T label) { 
return classes.indexOf (label); 


} 


public T decode(int index) { 
return classes.get(index); 


} 
} 





a 











MERHAR KAH ths AS Bs 





String[] stringLabels = {"Sunday", "Monday", "Tuesday"}; 


LabelEncoder<String> stringEncoder = new LabelEncoder<>(stringLabels) ; 





/* 注意 类 别 是 按照 在 原始 字符 串 数 组 中 的 顺序 排列 的 */ 
System.out.println(stringEncoder.getClasses()); //[Sunday, Monday, Tuesday] 


for (Datum datum : 


data) { 


int classNumber = stringEncoder.encode(datum.getLabel) ; 


// 根据 类 别 进行 某 项 操作 ， 即 添加 到 List 或 Matrix 中 


注意 ， 除 了 String 类 型 ， 这 种 方法 也 适用 于 任何 装 箱 类 型 ， 不 过 标签 很 可 能 采用 适合 于 
Short, Integer, Long, Boolean 以 及 Character 的 值 。 例 如 ，Boolean 标签 可 以 是 真 / 假 的 
布尔 值 ，Character 可 以 是 Y/N (是 / 否 ) 或 者 M/F ( 男 / 女 )， 甚 至 是 TF ( 真 / 假 )。 它 


完全 取决 于 在 所 读 取 的 数据 文件 中 ， 原 来 的 人 是 如 何 对 标签 进行 编码 的 。 标 签 不 太 可 








AE 


HEAS 


用 浮 点 数 形 式 ， 若 是 这 样 ， 大 概 是 在 处 理 回归 问题 ， 而 不 是 分 类 问题 (也 就 是 说 ， 将 连续 
变量 误 认 为 是 离散 变量 )。 下 一 市 将 给 出 采用 Integer 类 型 标签 的 示例 。 








4.5.2 ”一 位 有 效 编码 
在 有 些 情况 下 ， 把 多 标签 转换 为 多 位 二 进 制 标签 会 更 高 效 。 这 类 似 于 把 整数 转换 为 二 进 制 


格式 ， 只 是 要 求 一 次 








只 有 一 个 位 置 是 有 效 的 hot， 等 于 1)。 例 如 ， 可 以 把 3 个 字符 





签 编码 为 整数 ， 或 者 把 每 个 字符 串 表示 为 二 进 制 串 中 的 一 个 位 置 。 


aa] 
VN 





Sunday © 100 
Monday 1 010 
Tuesday 2 001 





用 List 对 标签 编码 时 ， 采 用 下 面 的 代码 : 


public class OneHotEncoder { 
private int numberOfCLasses; 


public OneHotEncoder(int numberOfClasses) { 
this.numberOfClasses = numberOfClasses; 


} 


public int getNumberOfClasses() { 
return numberOfCLlasses; 


} 


public int[] encode(int label) { 
int[] oneHot = new int[numberOfClasses]; 
oneHot[label] = 1; 
return oneHot; 


} 


public int decode(int[] oneHot) { 
return Arrays.binarySearch(oneHot, 1); 
} 
} 


若 标签 是 字符 串 ， 则 首先 采用 LabelEncoder 实例 把 标签 编码 为 整数 ， 然 后 用 OneHotEncoder 
实例 把 整数 标签 转换 为 一 位 有 效 编码 。 


String[] stringLabels = {"Sunday", "Monday", "Tuesday"}; 
LabelEncoder<String> stringEncoder = new LabelEncoder<>(stringLabels) ; 
int numClasses = stringEncoder.getClasses.size(); 

OneHotEncoder oneHotEncoder = new oneHotEncoder(numClasses); 

for (Datum datum : data) { 


int classNumber = stringEncoder.encode(datum.getLabel); 
int[] oneHot = oneHotEncoder .encode(classNumber ) ; 


// 根据 类 别 进行 某 项 操作 ， 即 添加 到 List 或 Matrix 中 





} 


反 过 来 会 怎么 样 呢 ? 假设 有 个 预测 模型 ， 它 返回 在 学 习 过 程 中 指定 的 类 别 。( 通 常 ， 学 习 
过 程 输出 概率 ， 但 是 此 处 可 以 假设 已 经 把 它们 转换 为 类 别 。) 首先 ， 需 要 把 一 位 有 效 输出 
转换 为 它 的 类 别 ， 接 下 来 ,需要 把 类 别 转 换 回 它 的 原始 标签 ， 就 像 下 面 这 样 : 
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[1, 0, 0] 
[0, 0, 1] 
[1, 0, 0] 
[0, 1, 0] 


然后 ， 需 要 把 预测 的 输出 从 一 位 有 效 编码 转换 为 原始 标签 。 
for(Integer[] prediction: predictions) { 


int classLabel = oneHotEncoder .decode(prediction) ; 
String label = LabelEncoder .decode(classLabel) ; 


} 


// 预测 的 标签 是 Sunday、Tuesday、Sunday、Monday 





第 5 章 


学 习 与 预测 





本 章 将 研究 数据 的 含义 ， 以 及 数据 如 何 驱动 决策 过 程 。 从 数据 中 学 习 可 以 获得 知识 ， 而 运 
用 知识 可 以 对 未 来 做 出 明智 的 预测 。 这 就 是 数据 科学 存在 的 原因 ， 即 充分 地 学 习 数 据 ， 以 
便 对 新 的 数据 做 出 预测 。 这 可 以 像 把 数据 分 为 多 个 组 或 者 复 那 么 简单 。 经 历 一 系列 非常 广 
泛 的 学 习 过 程 之 后 ， 机 器 学 习 最 终 将 走向 人 工 智能 。 学 习 分 为 监督 型 学 习 与 无 监督 型 学 习 
两 种 。 


一 般 来 说 ， 数 据 拥有 变量 蔷 以 及 响应 了 。 我 们 的 目标 是 采用 闫 建立 模型 ， 以 便 预 测 若 添上 
新 的 兰 时 会 发 生 什么 。 若 有 了 ， 则 可 以 “监督 ”模型 的 建立 。 在 许多 场合 ， 只 有 变量 X, 
因此 只 能 采用 无 监督 的 方式 建立 模型 。 典 型 的 无 监督 型 学 习 方 法 包括 聚 类 ， 而 监督 型 学 习 
方法 可 以 包括 任何 回归 方法 (例如 线性 回归 ) 或 分 类 方法 ， 例 如 朴素 贝 叶 斯 、logistic 或 者 
深度 神经 网 络 分 类 器 。 还 有 许多 其 他 方法 以 及 这 些 方法 的 交织 ， 此 处 并 不 讨论 所 有 方法 ， 
而 只 专注 于 少数 几 个 最 有 用 的 方法 。 


5.1 学 习 算法 
有 几 种 学 习 算 法 广泛 应 用 于 大 量 技术 中 。 有 具体 而 言 ， 我 们 经 常 要 用 迭代 学 习 过 程 来 重复 地 
对 所 寻找 的 模型 参数 进行 优化 或 更 新 。 有 几 种 优化 参数 的 方法 ， 此 处 讨论 梯度 下 降 法 。 


















































5.1.1 和 迭代 学 习 过 程 
学 习 模 型 的 标准 做 法 之 一 是 过 历 预 测 状态 ， 并 对 其 进行 更 新 。 回 归 、 聚 类 以 及 期 望 最 大 化 
(EM) 算法 都 获 益 于 与 迭代 学 习 过 程 类 似 的 形式 。 此 处 的 策略 是 先 创建 一 个 包含 所 有 返 代 
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学 习 过 程 样板 的 类 。 接 下来， 允许 子 类 定义 显 式 形式 的 预测 以 及 参数 更 新 方法 : 





public class IterativeLearningProcess { 


private boolean isConverged; 

private int numIterations; 

private int maxIterations; 

private double loss; 

private double tolerance; 

private int batchSize; // 若 其 值 为 0， 则 采用 所 有 数据 
private LossFunction lossFunction; 




















public IterativeLearningProcess(LossFunction lossFunction) { 
this. lossFunction = lossFunction; 
loss = 0; 
isConverged = false; 
numIterations = 0; 
maxIterations = 200; 
tolerance = 10E-6; 
batchSize = 100; 


} 


public void learn(RealMatrix input, RealMatrix target) { 
double priorLoss = tolerance; 
numIterations = 0; 
loss = 0; 
isConverged = false; 
Batch batch = new Batch(input, target); 
RealMatrix inputBatch; 
RealMatrix targetBatch; 
while(numIterations < maxIterations && !isConverged) { 
if(batchSize > 0 && batchSize < input.getRowDimension()) { 
batch.calcNextBatch(batchSize) ; 
inputBatch = batch.getInputBatch(); 
targetBatch = batch.getTargetBatch(); 
} else { 
inputBatch = input; 
targetBatch = target; 


} 
RealMatrix outputBatch = predict(inputBatch); 
loss = lossFunction.getMeanLoss(outputBatch, targetBatch); 
if(Math.abs(priorLoss - loss) < tolerance) { 
isConverged = true; 
} else { 
update(inputBatch, targetBatch, outputBatch); 
priorLoss = loss; 


} 


numIterations++; 


} 


public RealMatrix predict(RealMatrix input) { 
throw new UnsupportedOperationException("Implement the predict method!"); 





public void update(RealMatrix input, RealMatrix target, RealMatrix output) { 
throw new UnsupportedOperationException("Implement the update method!"); 


5.1.2 梯度 下 降 优 化 方法 
参数 学 习 的 一 种 方法 是 梯度 下 降 法 (一 种 一 阶 迭 代 优 化 算法 )。 该 算法 通过 (利用 误差 ) 
纠正 学 习 过 程 ， 用 递增 地 更 新 参数 的 方法 来 优化 参数 。 术 语 随机 (stochastic) 意味 着 一 次 
只 添加 单个 点 ， 而 不 是 一 次 利用 一 整 批 数据 。 实 际 上 ， 在 达 代 学 习 过 程 的 每 一 步 中 ， 随 机 
选择 大 约 100 个 点 的 小 批量 数据 是 有 益 的 。 通 常 的 想法 是 使 损失 函数 最 小 化 ， 从 而 通过 下 
式 对 参数 进行 更 新 : 

















Ort E 0, ce AO, 
参数 更 新 与 目标 函数 9) 的 梯度 相关 ， 如 下 式 所 示 : 
Ab ~ VARO) 


对 于 深度 网 络 ， 需 要 将 误差 通过 网 络 进行 反 向 传播 ， 这 一 主题 将 在 5.4.3 市 中 详细 讨论 。 





就 本 章 而 言 ， 可 以 定义 接口 ， 在 提供 了 特定 梯度 时 返回 参数 更 新 。 该 接口 包括 矩阵 形式 与 
向 量 形式 的 方法 签名 。 
public interface Optimizer { 
RealMatrix getWeightUpdate(RealMatrix weightGradient); 
RealVector getBiasUpdate(RealVector biasGradient); 


} 
梯度 下 降 法 中 最 常见 的 情况 是 从 已 有 参数 中 减 去 缩放 后 的 梯度 ， 即 下 式 : 





Ad, =~ nVf(9), 
更 新 规则 如 下 式 所 示 : 
O11 = 0, 和 nVvAO), 


随机 梯度 下 降 法 (SGD, stochastic gradient descent) 最 常见 的 类 型 是 采用 学 习 速 率 对 当前 
参数 进行 更 新 。 





public class GradientDescent implements Optimizer { 
private double learningRate; 


public GradientDescent(double learningRate) { 





学 习 与 预测 | 117 


} 


this.learningRate = learningRate; 


} 


@Override 
public RealMatrix getWeightUpdate(RealMatrix weightGradient) { 
return weightGradient.scalarMultiply(-1.0 * learningRate); 


} 


@Override 
public RealVector getBiasUpdate(RealVector biasGradient) { 
return biasGradient.mapMultiply(-1.0 * learningRate); 


} 











I 





这 种 优化 算法 的 一 种 常见 扩展 是 引入 动量 (momentum)， 当 达到 最 优 值 时 ， 它 会 放 组 优化 
过 程 ， 以 免 超 过 正确 参数 。 





更 新 规 贝 





可 以 看 上 


A0, = phe,- 1 nVKO), 


AeA PSK: 
0 = 0,+ pAd,_ ~ nVAO), 
H， 通 过 对 GradientDescent 类 进行 扩展 ， 容 易 实现 对 动量 的 添加 ， 从 而 为 存储 对 








权 值 与 偏 移 量 最 近 一 次 的 更 新 做 好 准备 ， 以 用 于 计算 下 一 次 更 新 。 注 意 在 第 一 次 迭代 时 ， 
尚未 存储 之 前 的 更 新 ， 因 此 要 创建 新 集合 ， 且 初始 化 为 零 。 











pub 























lic class GradientDescentMomentum extends GradientDescent { 


private final double momentum; 
private RealMatrix priorWeightUpdate; 
private RealVector priorBiasUpdate; 


public GradientDescentMomentum(double learningRate, double momentum) { 
super (learningRate) ; 
this.momentum = momentum; 
priorWeightUpdate = null; 
priorBiasUpdate = null; 


} 


@Override 
public RealMatrix getWeightUpdate(RealMatrix weightGradient) { 
// 如 果 不 存 在 ， 则 创建 与 梯度 大 小 相同 的 矩阵 ， 其 元 素 为 9 
if(priorWeightUpdate == null) { 
priorWeightUpdate = 
new BlockRealMatrix(weightGradient.getRowDimension(), 
weightGradient.getColumnDimension()); 























} 


RealMatrix update = priorWeightUpdate 
.scalarMuLtiply(momentum) 
.subtract(super.getWeightUpdate(weightGradient) ); 
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priorWeightUpdate = update; 
return update; 


} 


@Override 
public RealVector getBiasUpdate(RealVector biasGradient) { 
if(priorBiasUpdate == null) { 
priorBiasUpdate = new ArrayRealVector(biasGradient.getDimension()); 
} 
RealVector update = priorBiasUpdate 
.mapMultiply(momentum) 
.Subtract(super .getBiasUpdate(biasGradient)); 
priorBiasUpdate = update; 
return update; 
} 
} 


梯度 下 降 法 是 个 持续 发 展 且 活跃 的 领域 ， 采 用 引入 动量 的 方法 ， 容 易 扩展 梯度 下 降 法 的 能 
力 ， 例 如 采用 ADAM 或 ADADELTA 算法 。 


5.2 评估 学 习 过 各 
迭代 过 程 可 以 无 限期 地 运行 下 去 。 因 此 ， 必 须 设 定 人 允许 迭代 的 最 大 次 数 ， 以 阻止 任何 过 程 
失去 控制 并 永远 计算 下 去 。 通 常 ， 和 迭代 次 数 是 10°~10° 的 量 级 ， 但 没有 一 定 的 规则 。 如 果 
已 经 满足 特定 标准 ， 就 可 以 早点 结束 氨 代 过 程 。 这 被 称 作 收 钱 (convergence) ， 也 就 是 说 
迭代 过 程 已 经 收敛 到 一 个 解 ， 它 看 上 去 似乎 是 一 个 稳定 的 点 〈 例 如 ， 自 由 参数 不 再 以 足够 
大 的 增 量 改变 ， 使 得 迭代 过 程 继续 下 去 )。 当 然 ， 有 不 止 一 种 方式 可 以 做 到 这 些 。 尽 管 特 
定 学 习 技术 有 其 具体 的 收敛 标准 ， 但 是 没有 通用 方法 。 





























5.2.1 损失 函数 最 小 化 

损失 函数 (loss function) 表示 预测 输出 相对 于 目标 输出 的 损失 ， 也 称 作 成 本 函数 (cost 
function) 或 者 误差 项 (error term)。 给 定单 个 输入 向 量 x、 输 出 向 量 y 以 及 预测 向 量 了 ， 
样本 的 损失 记 作 (y, 了 )， 损 失 函 数 的 形式 取决 于 输出 数据 所 基于 的 统计 分 布 。 大 多 数 情 况 
T, p 维 输出 与 预测 之 间 的 损失 是 每 一 维 标量 损失 的 累加 和 。 














L939) = 2 2O’) 











因为 经 常 成 批 地 处 理 数 据 ， 所 以 要 计算 整 批 数据 的 平均 损失 (ZY(y, 四 。 当 谈论 损失 函数 的 
最 小 化 时 ， 是 指 把 输入 到 学 习 算 法 中 一 批 数 据 的 平均 损失 最 小 化 。 在 很 多 情况 下 ， 可 以 用 
损失 函数 的 梯度 V9(y, 四 来 对 学 习 进行 校正 。 通 常 ， 可 以 很 容易 地 计算 出 损失 相对 于 预测 
值 的 梯度 >。 寺 是 ， 其 指导 思想 是 返回 与 给 入 形状 相同 的 损失 函数 。 
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损失 


在 一 些 教科 书 中 ， 输 出 记 作 上 [事实 (truth) 或 目标 (target)] ， 预 测 记 作 y. 
本 书 中 输出 记 作 yy， 预测 记 作 了 》。 注 意 在 这 两 种 情况 下 ，y 具有 不 同 的 含义 。 














函数 的 许多 形式 依赖 于 变量 类 型 (连续 、 离 散 ， 或 者 两 者 都 有 ) 以 及 变量 所 基于 的 统 


计 分 布 。 不 过 ， 它 们 的 共同 点 使 得 损失 国 数 采用 接口 是 理想 的 。 把 实现 细节 留 给 具体 类 的 
原因 之 一 是 ， 有 具体 类 要 用 到 线性 代数 例 程 的 优化 算法 。 








public interface LossFunction { 
public double getSampleLoss(double predicted, double target); 
public double getSampleLoss(RealVector predicted, RealVector target); 
public double getMeanLoss(RealMatrix predicted, RealMatrix target); 
public double getSampleLossGradient(double predicted, double target); 
public RealVector getSampleLossGradient(RealVector predicted, 
RealVector target); 
public RealMatrix getLossGradient(RealMatrix predicted, RealMatrix target); 


} 


1. 线性 损失 
也 称 作 绝对 值 损 失 (absolute loss) ， 线 性 损失 (linear loss) 是 输出 与 预测 之 差 的 绝对 值 。 





L(y.3)=|9-y| 


因为 上 式 存在 绝对 值 符号 ， 所 以 计算 梯度 时 容易 出 错 ， 这 一 点 不 能 忽略 。 


4 
(5- 


ago 为 $y 
oy p 








=0 时 ， 由 于 2 在 该 点 不 连续 ， 所 以 梯度 在 该 点 没有 定义 。 然 而 ， 在 该 点 
y=0) 可 以 通过 程序 把 梯度 函数 的 值 设 定 为 0， 以 避免 发 生 1/0 的 异常 。 这 样 ， 梯 度 








国 数 就 只 返回 -1、0 或 1。 于 是 ,理想 的 做 法 是 使 用 数学 函数 sign(x)， 根 据 相 应 的 输入 值 


x<0, x 





=0 以 及 x>0， 它 只 返回 -1、0 或 1。 





public class LinearLossFunction implements LossFunction { 


@Override 
public double getSampleLoss(double predicted, double target) { 
return Math.abs(predicted - target); 


} 


@Override 
public double getSampleLoss(RealVector predicted, RealVector target) { 
return predicted.getLiDistance(target); 


} 


@Override 





public double getMeanLoss(RealMatrix predicted, RealMatrix target) { 
SummaryStatistics stats = new SummaryStatistics(); 
for (int i = 0; i < predicted.getRowDimension(); i++) { 
double dist = getSampleLoss(predicted.getRowVector(i), 
target.getRowVector(i)); 
stats.addValue(dist); 


} 

return stats.getMean(); 
} 
@Override 


public double getSampleLossGradient(double predicted, double target) { 
return Math.signum(predicted - target); // -1, 0, 1 


} 


@Override 

public RealVector getSampleLossGradient(RealVector predicted, 
RealVector target) { 
return predicted.subtract(target).map(new Signum()); 


} 


// 自己 实现 一 个 在 稀 玻 和 矩阵 上 应 用 函数 sign(x) 的 类 SparseToSignum 也 不 错 
// ARCHER ABLE Hye (RAI TC RS 
@Override 
public RealMatrix getLossGradient(RealMatrix predicted, RealMatrix target) { 
RealMatrix loss = new Array2DRowRealMatrix(predicted.getRowDimension(), 
predicted.getColumnDimension()); 
for (int i = 0; i < predicted.getRowDimension(); i++) { 
loss.setRowVector(i, getSampleLossGradient(predicted.getRowVector(i), 
target.getRowVector(i))); 











} 


return loss; 


} 


2. 二 次 损失 
预测 过 程 误 差 计 算 的 一 般 做 法 是 最 小 化 整个 数据 集 的 距离 指标 ,例如 Ll 或 L2。 对 于 特定 
的 预测 - 目标 对 ， 二 次 误差 如 下 式 所 示 : 











二 次 损失 函数 的 实现 如 下 : 
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public class QuadraticLossFunction implements LossFunction { 


@Override 

public double getSampleLoss(double predicted, double target) { 
double diff = predicted - target; 
return 0.5 * diff * diff; 

} 


@Override 

public double getSampleLoss(RealVector predicted, RealVector target) { 
double dist = predicted.getDistance(target) ; 
return 0.5 * dist * dist; 


} 


@Override 
public double getMeanLoss(RealMatrix predicted, RealMatrix target) { 
SummaryStatistics stats = new SummaryStatistics(); 
for (int i = 0; i < predicted.getRowDimension(); i++) { 
double dist = getSampleLoss(predicted.getRowVector(i), 
target.getRowVector(i)); 
stats.addValue(dist); 


} 

return stats.getMean(); 
} 
@Override 


public double getSampleLossGradient(double predicted, double target) { 
return predicted - target; 


} 


@Override 

public RealVector getSampleLossGradient(RealVector predicted, 
RealVector target) { 
return predicted.subtract(target); 


} 


@Override 
public RealMatrix getLossGradient(RealMatrix predicted, RealMatrix target) { 
return predicted.subtract(target); 


} 
} 


3. SUTRA 

交叉 粒 对 于 分 类 (例如 logistic 回归 或 者 神经 网 络 ) 是 重要 的 。 第 3 Repti T X MNS 
源 。 因 为 交叉 炉 表示 两 个 样本 之 间 的 相似 性 ， 所 以 可 以 用 它 衡 量 已 知 值 与 预测 值 的 一 致 
性 如 何 。 对 于 学 习 算 法 ,使 p 等 同 于 已 知 值 y，g 等 同 于 预测 值 了 》。 设 定 损失 等 于 交 又 灶 
(Pp,9)， 从 而 2(y, 了 )= 2(p,9)， 其 中 yx = pi 是 目标 ARE), Fu =e EK PETE 
中 的 每 个 类 别 的 第 i 个 预测 值 。 于 是 ， 交 又 炉 (每 个 样本 的 损失 ) 如 下 式 所 示 : 

















上 上 














K 
L(y9)=->y; log) 
k 











交叉 炉 及 其 相关 损失 函数 有 下 面 几 种 常见 形式 。 


4. 伯 努 利 
对 于 伯 努 利 型 输出 变量 ， 已 知 的 输出 y 是 二 元 的 ， 预 测 概率 是 了 ， 所 产生 的 交叉 炉 损 失 如 
下 式 所 示 : 




















L(¥.9) =-(ylog(})+(1- y)log(1-3)) 


于 是 ， 样 本 损失 梯度 如 下 式 所 示 : 


LAP RAGE A FBS SCE SL 
public class CrossEntropyLossFunction implements LossFunction { 


@Override 
public double getSampleLoss(double predicted, double target) { 
return -1.0 * (target * ((predicted>0)?FastMath. log(predicted) :0) 
+ (1.0 - target)*(predicted<1?FastMath. log(1.0-predicted):0)); 


} 


@Override 
public double getSampleLoss(RealVector predicted, RealVector target) { 
double loss = 0.0; 
for (int i = 0; i < predicted.getDimension(); i++) { 
loss += getSampleLoss(predicted.getEntry(i), target.getEntry(i)); 


} 

return loss; 
} 
@Override 


public double getMeanLoss(RealMatrix predicted, RealMatrix target) { 
SummaryStatistics stats = new SummaryStatistics(); 
for (int i = 0; i < predicted.getRowDimension(); i++) { 
stats.addValue(getSampleLoss(predicted.getRowVector(i), 
target.getRowVector(i))); 


} 

return stats.getMean(); 
} 
@Override 


public double getSampleLossGradient(double predicted, double target) { 
// TERR, Apredicted = 6 或 1， 将 导致 除法 出 错 ， 因 此 应 当 保证 永远 不 会 发 生 这 种 情况 
return (predicted - target) / (predicted * (1 - predicted)); 


























} 


@Override 
public RealVector getSampleLossGradient(RealVector predicted, 
RealVector target) { 
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RealVector loss = new ArrayRealVector(predicted.getDimension()); 

for (int i = 0; i < predicted.getDimension(); i++) { 
loss.setEntry(i, getSampleLossGradient(predicted.getEntry(i), 
target.getEntry(i))); 


} 

return loss; 
} 
@Override 


public RealMatrix getLossGradient(RealMatrix predicted, RealMatrix target) { 
RealMatrix loss = new Array2DRowRealMatrix(predicted.getRowDimension(), 
predicted.getColumnDimension()); 
for (int i = 0; i < predicted.getRowDimension(); i++) { 
loss.setRowVector(i, getSampleLossGradient(predicted.getRowVector(i), 
target.getRowVector(i))); 





} 
return loss; 
} 
} 
La AGATE HAZE logistic 输出 函数 中 。 
5. 多 项 





老 输 出 是 多 类 别 的 (k = 0, 1,2, … K-1)， 且 通过 一 位 有 效 编码 转换 为 一 系列 的 二 元 输出 ， 
则 交叉 灶 损 失 是 所 有 可 能 类 别 的 总 和 。 


L(y3) =-)'y, log (5, ) 
k 














然而 ， 在 一 位 有 效 编码 中 ， 只 有 某 个 维度 具有 y = 1， 其 余 维 度 y = 0 (REE). A 
此 ， 样 本 损失 也 是 稀疏 矩阵 。 考 虑 到 这 一 点 ， 理 想 情 况 下 ， 可 以 简化 计算 。 


样本 损失 梯度 如 下 式 所 示 : 

















因为 损失 和 矩阵 的 绝 大 多 数 元 素 是 0， 所 以 只 需要 计算 y= 1 位 置 上 的 梯度 。 这 种 形式 主要 用 
于 归 一 化 指数 函数 (softmax) 输出 函数 中 。 





public class OneHotCrossEntropyLossFunction implements LossFunction { 


@Override 
public double getSampleLoss(double predicted, double target) { 
return predicted > 0 ? -1.0 * target * FastMath.log(predicted) : 0; 


} 


@Override 
public double getSampleLoss(RealVector predicted, RealVector target) { 
double sampleLoss = 0.0; 





| 大 


第 5 章 


for (int i = 0; i < predicted.getDimension(); i++) { 
sampleLoss += getSampleLoss(predicted.getEntry(i), 
target.getEntry(i)); 


} 

return sampleLoss; 
} 
@Override 


public double getMeanLoss(RealMatrix predicted, RealMatrix target) { 
SummaryStatistics stats = new SummaryStatistics(); 
for (int i = 0; i < predicted.getRowDimension(); i++) { 
stats.addValue(getSampleLoss(predicted.getRowVector(i), 
target.getRowVector(i))); 


} 

return stats.getMean(); 
} 
@Override 


public double getSampleLossGradient(double predicted, double target) { 
return -1.0 * target / predicted; 
} 


@Override 
public RealVector getSampleLossGradient(RealVector predicted, 
RealVector target) { 
return target.ebeDivide( predicted) .mapMultiplyToSelf(-1.0); 
} 


@Override 
public RealMatrix getLossGradient(RealMatrix predicted, RealMatrix target) { 
RealMatrix loss = new Array2DRowRealMatrix(predicted.getRowDimension(), 
predicted.getColumnDimension()); 
for (int i = 0; i < predicted.getRowDimension(); i++) { 
loss.setRowVector(i, getSampleLossGradient(predicted.getRowVector(i), 
target.getRowVector(i))); 
} 


return loss; 


} 


6. 两 点 
当 输 出 是 二 元 的 ， 但 值 为 -1 与 1， 而 不 是 0 与 1 时 ， 则 可 以 在 伯 努 利 表达 式 中 用 7 = (y+1)/2 
与 了 =(y+])/2 赫 换 ， 进 行 重新 缩放 。 























样本 损失 梯度 如 下 式 所 示 : 
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Java 代码 如 下 所 示 : 


public class TwoPointCrossEntropyLossFunction implements LossFunction { 


@Override 
public double getSampleLoss(double predicted, double target) { 
// 把 -1~1 的 数 转 换 为 0~1 的 数 
double y = 0.5 * (predicted + 1); 
double t = 0.5 * (target + 1); 
return -1.0 * (t * ((y>0)?FastMath.log(y):0) + 
(1.0 - t)*(y<1?FastMath.1log(1.0-y):0)); 
} 


@Override 
public double getSampleLoss(RealVector predicted, RealVector target) { 
double loss = 0.0; 
for (int i = 0; i < predicted.getDimension(); i++) { 
loss += getSampleLoss(predicted.getEntry(i), target.getEntry(i)); 


} 

return loss; 
} 
@Override 


public double getMeanLoss(RealMatrix predicted, RealMatrix target) { 
SummaryStatistics stats = new SummaryStatistics(); 
for (int i = 0; i < predicted.getRowDimension(); i++) { 
stats.addValue(getSampleLoss(predicted.getRowVector(i), 
target.getRowVector(i))); 


} 

return stats.getMean(); 
} 
@Override 


public double getSampleLossGradient(double predicted, double target) { 
return (predicted - target) / (1 - predicted * predicted); 


} 


@Override 
public RealVector getSampleLossGradient(RealVector predicted, 
RealVector target) { 
RealVector loss = new ArrayRealVector(predicted.getDimension()); 
for (int i = 0; i < predicted.getDimension(); i++) { 
loss.setEntry(i, getSampleLossGradient(predicted.getEntry(i), 
target.getEntry(i))); 


} 

return loss; 
} 
@Override 


public RealMatrix getLossGradient(RealMatrix predicted, RealMatrix target) { 
RealMatrix loss = new Array2DRowRealMatrix(predicted.getRowDimension(), 
predicted.getColumnDimension()); 
for (int i = 0; i < predicted.getRowDimension(); i++) { 
loss.setRowVector(i, getSampleLossGradient(predicted.getRowVector(i), 
target.getRowVector(i))); 





} 
return loss; 
} 
} 











这 种 形式 的 损失 与 双 曲 正切 (tanh) 激活 函数 兼容 。 








5.2.2 方差 和 的 最 小 化 
把 数据 分 成 多 个 组 时 ， 可 以 通过 方差 监测 组 内 数据 相对 于 其 平均 位 置 的 分 散 程度 。 因 为 方 
差 能 够 累加 ， 所 以 可 以 定义 n MANS s, Ko 是 每 个 组 的 方差 。 


n 

2 

s= Yo 
i=l 





当 s 减少 时 ， 表 明 总 体 误差 也 在 减少 。 这 对 于 聚 类 技术 是 有 利 的 ， 例 如 天 均值 ， 它 基于 寻 
找 每 个 禾 的 均值 或 形 心 点 。 

















5.2.3 ”轮廓 系数 

无 监督 型 学 习 方法 ， 例 如 聚 类 ， 试 图 发 现 每 个 复 之 内 的 点 是 如 何 紧密 地 聚 在 一 起 的 。 轮 廓 
AR (silhouette coefficient) 与 任 一 给 定 复 之 内 的 平均 距离 与 该 复 到 与 其 最 近 徐 之 间 的 平均 
距离 差 值 有 关 。 下 式 中 ， 轮 廓 分 值 * 是 每 个 样本 的 距离 (定义 见 下 式 ) s 的 平均 值 。 其 中 ， 
a; 为 ( 某 个 类 别 的 ) 样本 与 该 类 别 中 所 有 其 他 点 的 平均 距离 ，b, 为 样本 与 下 一 个 最 近 的 徐 
中 所 有 点 的 平均 距离 。 


















































b,—a, 
S= 
max(a,,b,) 








轮廓 分 值 是 所 有 样本 轮廓 系数 的 平均 值 : 











1 n 
S= nel 





轮廓 分 值 在 -1~1 范围 内 ， 其 中 -1 是 不 正确 的 聚 类 ，1 是 高 度 稠密 的 聚 类 ，0 表示 复发 生 
SHE, MARE AHA AA TREDE, s 将 增 大 。 监 测 过 程 的 目标 是 寻找 s 的 最 大 
值 。 注意 轮廓 系数 只 在 25 Mabels < Nsamples ~ 1 时 有 定义 ， 下 面 是 Java 代码 : 





public class SilhouetteCoefficient { 


List<Cluster<DoublePoint>> clusters; 
double coefficient; 

int numClusters; 

int numSamples; 
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public SilhouetteCoefficient(List<Cluster<DoublePoint>> clusters) { 
this.clusters = clusters; 
calculateMeanCoefficient(); 


} 


private void calculateMeanCoefficient() { 
SummaryStatistics stats = new SummaryStatistics(); 
int clusterNumber = 0; 
for (Cluster<DoublePoint> cluster : clusters) { 
for (DoublePoint point : cluster.getPoints()) { 
double s = calculateCoefficientForOnePoint(point, clusterNumber) ; 
stats.addValue(s); 


} 


clusterNumber++; 
} 


coefficient = stats.getMean(); 


} 


private double calculateCoefficientForOnePoint(DoublePoint onePoint, 
int clusterLabel) { 
/* 所 有 其 他 点 将 与 这 个 点 进行 比较 */ 
RealVector vector = new ArrayRealVector(onePoint.getPoint()); 
double a = 0; 
double b = Double.MAX_VALUE; 
int clusterNumber = 0; 
for (Cluster<DoublePoint> cluster : clusters) { 
SummaryStatistics clusterStats = new SummaryStatistics(); 
for (DoublePoint otherPoint : cluster.getPoints()) { 
RealVector otherVector = 
new ArrayRealVector(otherPoint.getPoint()); 
double dist = vector.getDistance(otherVector) ; 
clusterStats.addValue(dist); 





} 
double avgDistance = clusterStats.getMean(); 
if(clusterNumber==clusterLabel) { 
/* 已 经 引入 了 与 自己 距离 为 6 的 点 */ 
/* 因此 计算 平均 值 时 要 减 去 这 个 点 */ 
double n = new Long(clusterStats.getN()).doubleValue(); 
double correction = n / (n - 1.0); 
a = correction * avgDistance; 
} else { 
b = Math.min(avgDistance, b); 








} 


clusterNumber++; 


} 
return (b-a) / Math.max(a, b); 


5.2.4 对 数 似 然 性 


无 监督 型 学 习 问 题 中 ， 因 为 存在 与 每 个 输出 预测 相关 的 概率 ， 所 以 可 以 利用 对 数 似 然 性 。 
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有 个 特例 是 本 章 的 高 斯 聚 类 示例 。 对 于 这 个 期 望 最 大 化 算法 ， 对 多 维 正 态 分 布 的 混合 做 了 
优化 以 拟 合 数据 。 给 定 所 采用 的 模型 ， 每 个 数据 点 都 有 与 之 相关 的 概率 密度 p;,， 平 均 对 数 
似 然 性 可 以 用 每 个 点 概率 对 数 的 均值 进行 计算 。 


Z(p)= “> log(p,) 


于 是 ， 可 以 计算 所 有 数据 点 的 〈 平 均 ) 对 数 似 然 性 (Z(p))。 在 高 斯 聚 类 示例 中 ， 通 过 
MultivariateNormalMixtureExpectationMaximization.getLogLikelihood() 方法 可 以 直接 得 
到 这 个 参数 。 


5.2.5 ”分 类 器 的 准确 率 


如 何 知 道 分 类 器 的 实际 准确 率 呢 ? 二 元 分 类 方案 有 以 下 4 种 可 能 结果 : 


TP)， 数 据 值 与 预测 值 均 为 1; 
TN)， 数 据 值 与 预测 值 均 为 0; 
FP)， 数 据 值 是 0， 但 预测 值 为 1; 
FN)， 数 据 值 是 1， 但 预测 值 为 0。 


Tt 





(1) 真 阳性 
(2) 真 阴性 
(3) 假 阳 性 
(4) 假 阴性 
给 定 4 种 可 能 结果 各 自 的 计数 ， 再 结合 其 他 参数 ， 可 以 计算 出 分 类 器 的 准确 率 。 


准确 率 (accuracy) 可 以 按 下 式 进行 计算 : 























pee: (GS ea 





























TP +TN 
准确 率 = 
ER TP +TN + FP + FN 











或 者 ， 鉴 于 分 母 是 数据 集 总 的 行 数 W， 准 确 率 表 达 式 等 价 于 下 式 : 


F TP+ TN 
准确 率 = 一 一 


之 








可 以 为 每 个 维度 计算 准确 率 ， 准 确 率 向 量 的 平均 值 是 分 类 器 的 平均 准确 率 ， 也 就 是 Jaccard 
分 值 。 


在 使 用 一 位 有 效 编码 的 特殊 情况 中 ， 只 需要 真 阳性 ， 那 么 每 一 维 的 准确 率 表 达 式 如 下 : 






































六 是 该 维度 总 的 分 类 计数 〈 即 该 列 中 1 的 个 数 )。 该 分 类 器 的 准确 率 值 计算 如 下 : 


si x 
准确 率 = 一 
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在 实现 中 ， 有 两 种 应 用 场景 。 第 一 种 场景 是 一 位 有 效 编码 。 在 另 一 种 场景 中 ， 二 元 多 标签 
输出 是 独立 的 。 在 后 一 种 应 用 场景 中 ， 可 以 选择 阔 值 (0-1 范围 内 ) ， 在 这 个 点 决定 类 别 是 
1 还 是 0。 在 最 一 般 的 情况 下 ， 可 以 选择 阔 值 为 05， 将 所 有 小 于 0.5 的 概率 分 类 为 0， 将 
大 于 等 于 0.5 的 概率 分 类 为 1。 这 个 类 的 应 用 示例 将 在 5.4 节 中 给 出 。 





























public class ClassifierAccuracy { 


RealMatrix predictions; 

RealMatrix targets; 

ProbabilityEncoder probabilityEncoder; 
RealVector classCount; 


public ClassifierAccuracy(RealMatrix predictions, RealMatrix targets) { 
this.predictions = predictions; 
this.targets = targets; 
probabilityEncoder = new ProbabilityEncoder(); 
// 按 每 个 维度 针对 二 元 类 别 进 行 计 数 
classCount = new ArrayRealVector(targets.getCoLumnDimension()); 
for (int i = 0; i < targets.getRowDimension(); i++) { 
classCount = classCount.add(targets.getRowVector(i)); 





} 
} 


public RealVector getAccuracyPerDimension() { 

RealVector accuracy = 
new ArrayRealVector(predictions.getColumnDimension()); 

for (int i = 0; i < predictions.getRowDimension(); i++) { 
RealVector binarized = probabilityEncoder .getOneHot( 

predictions.getRowVector(i)); 

// 由 于 9*0 = 0, 0*1 = 0, 1*0 = 0 ， 因 此 只 有 1*1 = 1 是 真 阳性 
RealVector decision = binarized.ebeMuLltiply(targets.getRowVector(i)); 
// 将 TP 计数 添加 到 accuracy 


accuracy = accuracy.add(decision); 











} 


return accuracy.ebeDivide(classCount); 


} 


public double getAccuracy() { 
// 把 每 个 维度 的 accuracy 转 换 成 计数 
// 然后 求 和 ， 且 除 以 总 的 行 数 
return getAccuracyPerDimension().ebeMultiply(classCount).getLiNorm() / 
targets .getRowDimension(); 

















} 


// 实现 Jaccard 相 似 度 值 
public RealVector getAccuracyPerDimension(double threshold) { 
// 假设 多 个 输出 不 相关 
RealVector accuracy = newArrayRealVector(targets.getColumnDimension()); 
for (int i = 0; i < predictions.getRowDimension(); i++) { 
// 根据 国 值 把 行 向 量 二 元 化 
RealVector binarized = probabilityEncoder.getBinary( 
predictions.getRowVector(i), threshold); 
// 0-0 (TN) 以 及 1-1 (TP) = 9， 但 是 1-0 = 1 以 及 0-1 = -1 








RealVector decision = binarized.subtract( 
targets.getRowVector(i)).map(new Abs()).mapMultipLly(-1).mapAdd(1); 
// 将 TP 与 TN 计数 添加 到 accuracy 
accuracy = accuracy.add(decision); 

} 

return accuracy.mapDivide((double) predictions.getRowDimension()); 


// SPREE, FEAR RENE AS 





} 


public double getAccuracy(double threshold) { 
// accuracy 向 量 的 均值 
return getAccuracyPerDimension(threshold).getLiNorm() / 
targets.getColumnDimension(); 


5.3 无 监督 型 学 习 











若 只 有 独立 的 变量 ， 则 必须 在 不 借助 于 因 变量 (响应 ) 或 标签 的 情况 下 识别 数据 的 模式 。 
最 常见 的 无 监督 型 技术 是 聚 类 ， 所 有 聚 类 的 目标 是 把 数据 点 汶 划分 为 一 系列 的 集合 ， 可 表 





示 为 K 个 集合 ，S = 5S, …, Se， 其 中 集合 个 数 小 于 数据 点 个 数 。 通 常 ， 每 个 点 筷 只 属于 其 
中 的 一 个 子 集 %。 然 而 ， 也 可 以 指定 每 个 点 闷 分 别 属 于 各 个 集合 的 概率 p(X) = pi, Po» s 
px， 其 中 各 个 概率 的 总 和 为 1。 此 处 讨论 硬 分 配 (hard assignment) 方法 的 两 种 变形 ， 即 天 
均值 察 类 与 DBSCAN 聚 类 ， 以 及 一 种 软 分 配 (soft assignment) 方法 ， 即 高 斯 混合 模型 。 
这 些 方 法 的 假设 、 算 法 以 及 应 用 范围 变化 很 大 。 然 而 ， 它 们 的 结果 通常 是 相同 的 ， 即 把 数 
据点 等 划 分 为 一 个 或 多 个 子 集 ， 或 称 作 簇 。 



































5.3.1 KARZ 

天 均值 聚 类 是 聚 类 算法 中 最 简单 的 形式 ， 它 采用 直接 分 配方 法 寻找 指定 个 数 复 各 自 的 形 心 。 
Maat, VERN TAK (整数 )， 用 算法 (或 者 随机 ) EER ENTE DIE uo XF 
点 x， 如 果 其 与 ju 的 欧 氏 距离 (也 可 以 采用 其 他 方式 ， 但 是 通常 是 L2) 最 小 ， 则 该 点 属 
于 集合 5,。 于 是 ， 目 标 函 数 是 将 下 式 最 小 化 : 


天 
Ws 


然后 ， 通 过 下 式 对 形 心 位 置 GP BTA x 的 平均 值 ) 进行 更 新 : 











2 
x- a| 








1 
m= r 


xeS, 











当 目 标 函 数 不 再 改变 ， 从 而 形 心 位 置 也 不 再 改变 时 ， 就 可 以 停止 。 如 何 知道 怎样 的 簇 个 数 
是 最 优 的 ? 可 以 记录 所 有 得 的 方差 总 和 ， 并 调整 禾 的 个 数 。 当 绘制 方差 之 与 禾 个 数 的 对 比 
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图 时 ， 理 想 形状 看 起 来 像 是 曲棍球 棒 ， 图 中 弯曲 明显 处 所 对 应 的 点 就 是 复 的 理想 个 数 。 








be, ke 1 2 
ok = kk Kl 
Apache Commons Math 所 用 算法 是 天 均值 聚 类 算法 的 改进 版 本 ， 太 means++， 它 在 选择 随 
机 初始 点 时 做 得 更 好 。KMeansPLusPLusCLusterer<T> 类 的 构造 方法 中 有 几 个 参数 ， 但 是 只 
有 其 中 之 一 是 必需 的 ， 即 所 要 寻找 的 复 个 数 。 要 进行 聚 类 的 数据 必须 是 关于 Clusterable 
AY List, DoublePoint 类 是 对 double 型 数组 便利 的 封装 ，DoublePoint 类 实现 了 
Clusterable 接口 。 在 构造 方法 中 ， 有 个 double 型 数组 的 参数 : 




















double[][] rawData =... 
List<DoublePoint> data = new ArrayList<>(); 


for (double[] row : rawData) { 
data.add(new DoublePoint(row)); 


} 
/* 所 要 寻找 的 复 个 数 */ 


int numCLusters = 1; 


/* 基本 的 构造 方法 */ 
KMeansPlusPlusClusterer<DoublePoint> kmpp = 
new KMeansPLusPLusClusterer<>(numCLusters) ; 














/* 进行 聚 类 ， 且 返回 长 度 为 numCLusters 的 List */ 
List<CentroidCluster<DoublePoint>> results = kmpp.cluster(data); 

















/* Xt FClusterablext Ray Weak FTE */ 


for (CentroidCluster<DoublePoint> result : results) { 
DoublePoint centroid = (DoublePoint) result.getCenter(); 
System.out.println(centroid); // DoublePoint 具 有 toString() 方 法 


/* 也 可 以 访问 仅 在 这 个 复 中 的 所 有 点 */ 


List<DoublePoint> clusterPoints = result.getPoints(); 








} 
在 天 均值 聚 类 方案 中 ， 需 要 对 几 种 numClusters 进行 迭代 ， 记 录 每 个 徐 方 差 之 和 。 因 为 方 
差 能 够 累加 ， 所 以 可 以 用 其 度量 总 体 误 差 。 理 想 情况 下 ， 需 要 使 这 个 量 最 小 化 。 此 处 ， 搜 
索 不 同 簇 个 数 进行 迭代 时 ， 记 录 徐 的 方差 。 


/* 从 1~5 个 徐 中 搜索 */ 


for (int i = 1; i < 5; i++) { 








KMeansPLusPLusCLlusterer<DoublePoint> kmpp = new KMeansPLlusPLusCLlusterer<>(i); 
List<CentroidCluster<DoublePoint>> results = kmpp.cluster(data); 





AR 


1322 | $52 





/* 对 于 这 种 个 数 的 复 ， 这 是 其 方差 之 和 */ 
SumOfClusterVariances<DoublePoint> clusterVar = 
new SumOfClusterVariances<>(new EuclideanDistance()); 


for (CentroidCluster<DoublePoint> result : results) { 


} 
} 


DoublePoint centroid = (DoublePoint) result.getCenter()); 





对 天 均值 聚 类 算法 的 一 种 改进 方式 是 党 试 儿 个 起 始点 ， 再 采用 最 佳 结果 一 一 也 就 是 说 ， 
使 得 误差 最 小 。 因 为 起 始点 是 随机 的 ， 所 以 有 时 聚 类 算法 会 遇 到 错误 ， 即 使 处 理 空 徐 
策略 也 无 法 处 理 。 重 复 每 个 聚 类 尝试 ， 并 选择 具有 最 佳 结果 的 那个 ， 是 个 不 错 的 主意 。 
MultiKMeansPlusPlusClusterer<T> 类 进行 numTrials 次 相同 的 聚 类 操作 ， 只 采用 最 佳 结果 。 
可 以 把 这 些 操作 与 前 述 代 码 进行 结合 。 

















/* 对 于 每 种 聚 类 尝试 ， 重 复 16 次 ， 选 择 最 佳 结果 */ 


int numTrials = 10; 





/* 从 1~5 个 竹中 搜索 */ 


for (int i = 1; i < 5; i++) { 


/* 仍然 需要 创建 KMeansPLusPLusCLusterer 的 实例 …… */ 
KMeansPLusPLusCLlusterer<DoublePoint> kmpp = new KMeansPlusPLlusClusterer<>(i); 





[® eee 并 把 它 传递 给 MuLtiKMeansPLusPLusCLusterer 的 构造 方法 */ 
MultiKMeansPLusPLusClusterer<DoublePoint> multiKMPP = 


new MultiKMeansPLusPlusCLlusterer<>(kmpp, numTrials); 











/* 注意 此 处 是 对 muLtiKMPP 进 行 聚 类 ， 而 不 是 对 kmpp */ 
List<CentroidCluster<DoublePoint>> results = multikKMPP.cluster(data); 





/* 对 于 这 种 个 数 的 化， 这 是 其 方差 之 和 */ 


SumOfClusterVariances<DoublePoint> clusterVar = 


new SumOfClusterVariances<>(new EuclideanDistance()); 


/* URN BU ZA */ 


double score = clusterVar.score(results) 


/* 最 佳 形 心 位 置 */ 


for (CentroidCluster<DoublePoint> result : results) { 


} 


5.3.2 





DoublePoint centroid = (DoublePoint) result.getCenter()); 


DBSCAN 





当 徐 的 形状 不 规则 时 ， 会 如 何 呢 ? “RABI, LAAPE? DBSCAN (density-based 


spatial clustering of applications with noise， 有 噪声 应 用 的 基于 密度 的 空间 聚 类 ) 算法 可 以 很 


好 地 发 现 难 
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学 习 与 预测 | 133 


需 的 输入 参数 是 最 大 采集 半径 以 及 每 个 簇 中 点 的 最 小 个 数 。 实 现代 码 如 下 : 


/* 构造 方法 的 参数 有 eps 以 及 minPts */ 

double eps = 2.0; 

int minPts = 3; 

DBSCANCLusterer clusterer = new DBSCANCLusterer(eps, minPts); 
List<Cluster<DoublePoint>> results = clusterer.cluster(data); 


TER, AAAI i TRE AL, PLA STIR k-meanst+ 算法 不 同 ， 
DBSCAN 并 不 返回 CentroidCluster 类 型 。 不 过 ， 可 以 直接 访问 已 经 聚 类 的 点 ， 并 对 其 做 
进一步 处 理 。 但 是 要 注意 ， 如 果 算 法 不 能 发 现任 何 徐 ， 那 么 Ltst<CLuster<T>> 实例 将 包含 
大 小 为 0 的 空 List, 





if(results.isEmpty()) { 
System.out.println("No clusters were found"); 
} else { 


for (Cluster<DoublePoint> result : results) { 
/* 每 个 徐 的 点 在 此 处 */ 
List<DoublePoint> points = result.getPoints(); 
System.out.println(points.size()); 


// AREAS FR FP ED EEA TAH OE 





} 


在 这 个 例子 中 ， 创 建 了 4 个 随机 的 多 元 (CE) 一 般 族 。 需 要 注意 的 是 ， 其 中 有 两 个 徐 靠 
得 非常 近 ， 几 乎 要 互相 接触 ， 甚 至 可 以 把 它们 看 作 带 尖 角 的 做 。 这 表明 在 DBSCAN 算法 
中 需要 进行 折 中 。 


在 这 种 情况 下 ， 需 要 设置 足够 小 的 采集 半径 (€= 0.225) ， 以 便于 监测 到 分 离 的 符 ， 但 是 
会 有 异常 值 。 此 处 ， 较 大 的 半径 (€ = 0.8) 会 把 最 左边 两 个 符合 二 为 一 ， 几 乎 没有 异常 
值 。 随 着 上 的 减 小 ， 检 测 得 的 分 辩 率 会 提高 ， 但 是 也 增加 了 异常 值 的 似 然 性 。 在 更 高 维度 
的 空间 中 ， 徐 之 间 彼 此 接近 的 可 能 性 不 大 ， 因 此 这 不 是 什么 问题 。 图 5-1 中 给 出 了 适合 采 
用 DBSCAN 算法 的 4 ENTRAR. | 


























HE 1: 读者 可 访问 本 书 图 灵 社 区 页 面 (https:/www.ituring.com.cn/book/2082) ， 在 右 侧 的 “ 随 书 下 载 ” 中 查看 
图 5-1 的 彩色 图 片 。 一 一 编者 注 
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图 5-1: 采用 DBSCAN 对 4 个 高 斯 禾 的 模拟 
1. 处 理 异 常 值 


DBSCAN 算法 非常 适合 处 理 异 常 值 。 但 是 ， 如 何 访问 这 些 异 常 值 呢 ? 遗憾 的 是 ， 目 前 的 
Math 实现 中 不 允许 访问 DBSCAN 算法 中 标记 为 噪声 的 点 。 不 过 ， 可 以 像 下 面 这 样 对 其 进 


行 记录 : 
/* 要 记录 异常 值 */ 


// 注意 需要 全 新 列表 ， 但 是 不 要 引用 相同 的 对 象 


// 例如 ，outtLiers = data 不 是 一 种 好 的 做 法 


// List<DoublePoint> outliers = data; // 也 会 从 data 中 移 除 点 


List<DoublePoint> outliers = new ArrayList<>(); 


for (DoublePoint dp : data) { 


outliers.add(new DoublePoint(dp.getPoint())); 


} 


Pre, eR BETTI UI, Toc ENTE PRE TR, SRL ZI, K 


下 的 数据 将 成 为 异常 值 。 
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for (Cluster<DoublePoint> result : results) { 
/* FARREA */ 


List<DoublePoint> points = result.getPoints(); 


/* 从 data 的 副本 outLiers 中 移 除 这 些 复 的 点 ， 
当 所 有 徐 的 点 都 被 移 除 之 后 ，outLiers 将 只 包含 异常 值 

















*/ 


outliers.removeALL(points) ; 


} 
// 现在 ， 列 表 outtiers 中 只 包含 那些 不 在 任何 徐 中 出 现 的 点 
2. 对 采集 半径 以 及 最 少 点 数 进 行 优化 
在 二 维 问题 中 ， 容 易 观 测 采集 半径 ， 但 是 如 何 知道 它 是 最 优 的 ? 显然 ， 这 完全 取决 并 依赖 
于 应 用 场景 。 一 般 来 说 ， 最 少 点 数 应 该 满足 下 式 “ 














nmn = P+ 1 





因此 ， 在 二 维 问题 中 ， 每 个 禾 中 至 少 需要 三 个 点 。 采 集 半 径 6 可 以 根据 大 距离 图 (k-distance 
graph) 曲棍球 棒 的 明显 弯曲 处 进行 估计 。 采 用 轮廓 分 值 作 为 指标 ， 可 以 进行 网 格 搜索 ， 从 
而 得 到 最 少 点 数 以 及 采集 半径 。 首 先 ， 计 算 每 个 样本 的 轮廓 系 数 *。 其 中 ，a 表示 样本 与 类 
别 中 所 有 其 他 点 之 间 的 平均 距离 ，b 表示 样本 与 下 一 个 最 近 的 簇 中 所 有 点 的 平均 距离 。 



































_ b-a 


K max(a,b) 





于 是 ， 轮 廓 分 值 就 是 所 有 样本 的 轮廓 系数 的 平均 值 。 轮 廓 分 值 在 -1~1 范围 内 ， 其 中 -1 是 
不 正确 的 聚 类 ，1 是 高 度 稠密 的 聚 类 ，0 表示 矮 发 生 了 重合 。 随 着 簇 变 得 稠密 以 及 有 了 很 
好 的 分 离 ，s 将 增 大 。 就 像 前 述 的 天 均值 聚 类 那样 ， 可 以 调整 的 值 ， 并 输出 轮廓 分 值 。 














double[] epsVals = {0.15, 0.16, 0.17, 0.18, 0.19, 0.20, 
0.21, 0.22, 0.23, 0.24, 0.25}; 


for (double epsVal : epsVals) { 


DBSCANCLusterer clusterer = new DBSCANCLusterer(epsVal, minPts); 
List<Cluster<DoublePoint>> results = clusterer.cluster(dbExam.clusterPoints) ; 


if(results.isEmpty()) { 
System.out.println("No clusters where found"); 


} else { 





TE 2: 此 处 p 是 数据 的 维度 。 一 一 译 者 注 
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SilhouetteCoefficient s = new SilhouetteCoefficient(results); 





System.out.println("eps = " + epsVal + 
" numClusters = " + results.size() + 
"s=" + s.getCoefficient()); 
} 
} 
这 将 产生 下 列 输出 : 

eps = 0.15 numClusters = 7 s = 0.54765 

eps = 0.16 numClusters = 7 s = 0.53424 

eps = 0.17 numClusters = 7 s = 0.53311 

eps = 0.18 numClusters = 6 s = 0.68734 

eps = 0.19 numClusters = 6 s = 0.68342 

eps = 0.20 numClusters = 6 s = 0.67743 

eps = 0.21 numClusters = 5 s = 0.68348 

eps = 0.22 numClusters = 4 s = 0.70073 // 最 好 的 

eps = 0.23 numClusters = 3 s = 0.68861 

eps = 0.24 numClusters = 3 s = 0.68766 

eps = 0.25 numClusters = 3 s = 0.68571 














当 6 = 0.22 hf, SEROMA OHS, 9 = 0.7， 表 明理 想 的 E 接 近 于 0.22。 对 于 这 个 特定 
的 6，DBSCAN 例 程 也 收敛 到 四 个 徐 ， 这 是 所 模拟 的 复 个 数 。 当 然 ， 在 实际 情况 中 ， 并 不 
能 预先 知道 复 的 个 数 。 但 是 这 个 示例 确实 表明 ， 若 复 的 个 数 正 确 ， 从 而 得 到 正确 的 E 值 ， 
则 s 应 当 接近 于 最 大 值 1。 


3. DBSCAN 的 推论 

与 玉 均 值 算法 不 同 ，DBSCAN 算法 不 是 用 来 预测 新 数据 点 的 归属 ， 而 是 用 于 对 数据 进行 
划分 ， 以 供 进一步 使 用 。 如 果 需 要 基于 DBSCAN 的 预测 模型 ， 那 么 可 以 分 配 类 别 值 给 已 
经 聚 类 的 数据 点 ， 然 后 尝试 分 类 方案 ， 例 如 高 斯 混合 、 朴 素 贝 叶 斯 以 及 其 他 方案 。 






































5.3.3 ”高 斯 混合 

与 DBSCAN 的 概念 类 似 ， 高 斯 混合 模型 是 基于 点 的 密度 进行 聚 类 ， 但 采用 多 维 正 态 分 布 
Aw, 习 ， 因 为 它 由 均值 与 协 方差 构成 。 接 近 于 平均 位 置 的 数据 点 具有 属于 该 徐 的 最 高 概 
率 ， 随 着 数据 点 远离 平均 位 置 ， 属 于 该 徐 的 概率 下 降 直 至 0。 

1. 高 斯 混合 模型 

高 斯 混合 模型 在 数学 上 表示 为 维 高 斯 分 布 的 加 权 混 合 ( 见 第 3 章 的 讨论 )。 








f(xX)= D a NCZ) 


此 处 的 权 值 满足 等 式 Do, =1。 必 须 创建 关于 Pair IRH List, Pair 的 第 一 个 成 员 是 权 
值 ， 第 二 个 成 员 是 分 布 自身 。 
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List<Pair<Double, MultivariateNormalDistribution>> mixture = new ArrayList<>(); 


/* 第 一 个 混合 组 件 */ 
double alphaOne = 0.70; 
double[] meansOne = {0.0, 


0.0}; 


double[][] covOne = {{1.0, 0.0},{0.0, 1.0}}; 
MultivariateNormalDistribution distOne = 

new MultivariateNormalDistribution(meansOne, covOne); 
Pair pairOne = new Pair(alphaOne, distOne); 


mixture.add(pairOne); 


/* 第 二 个 混合 组 件 */ 
double alphaTwo = 0.30; 
double[] meansTwo = {5.0, 


5.0}; 


double[][] covTwo = {{1.0, 0.0},{0.0, 1.0}}; 
MultivariateNormalDistribution distTwo = 

new MultivariateNormalDistribution(meansTwo, covTwo); 
Pair pairTwo = new Pair(alphaTwo, distTwo); 


mixture.add(pairTwo); 


/* 把 Pair 对 象 的 列表 添加 到 混合 模型 中 ， 并 对 点 进行 采样 */ 
MixtureMultivariateNormalDistribution dist = 
new MixtureMultivariateNormalDistribution(mixture); 





/* 不 需要 种 子 ， 但 是 如 果 想 重用 相同 的 数据 ， 那 么 这 样 做 是 有 帮助 的 */ 


dist.reseedRandomGenerator (0L); 








/* 从 mixture 中 生成 1000 个 随机 数据 点 */ 

double[][] data = dist.sample(1000); 
注意 ， 混 合 分 布 模型 中 的 样本 数据 并 不 记录 所 采样 的 数据 点 来 自 哪个 组 件 。 换 句 话说， 不 
能 够 辨别 每 个 样本 的 数据 点 属于 哪个 MultivariateNormal。 如 果 需 要 这 个 功能 ， 那 么 可 以 
总 是 从 独立 的 分 布 中 采样 ， 然 后 再 把 它们 加 在 一 起 。 


为 了 测试 而 创建 混合 模型 会 是 单调 乏味 的 ， 且 充满 了 问题 。 如 采 不 是 从 已 有 实际 数据 创建 
数据 集 ， 那 么 最 好 是 尝试 那些 已 经 避 开 一 些 已 知 问题 的 模拟 数据 。 附 录 A 中 给 出 了 产生 
随机 混合 模型 的 一 种 方法 。 图 5-2 中 绘制 了 多 维 高 斯 混合 模型 ， 其 中 有 关于 二 维 数据 的 两 

















DIR. 





















































图 5-2: 二 维 数据 的 高 斯 徐 
数据 可 以 用 下 面 的 示例 代码 生成 : 





int dimension = 5; 
int numClusters = 7; 
double boxSize = 10; 
long seed = OL; 

int numPoints = 10000; 


/* 这 个 数据 集 见 附录 A */ 

MultiNormalMixtureDataset mnd = new MultiNormalMixtureDataset(dimension); 
mnd.createRandomMixtureModel(numClusters, boxSize, OL); 

double[][] data = mnd.getSimulatedData(numPoints) ; 


2. 用 EM 算法 拟 合 


期 望 最 大 化 算法 (EM) 应 用 在 许多 其 他 场合 。 最 本 质 的 问题 是 ， 所 选 参数 正确 的 最 大 似 
然 性 是 多 少 ? 给 定 特 定 容 了 上限， 进行 运 代 ， 直 到 这 些 参数 不 再 改变 为 止 。 此 处 需要 提供 初始 
猜 出 ， 即 混合 模型 是 什么 。 采 用 前 一 节 的 方法 ， 用 已 知 组 件 ， 可 以 创建 混合 模型 。 不 过 ， 
给 定数 据 集 以 及 徐 个 数 作为 输入 ， 可 用 静态 方法 Mul tivariateNormalMixtureExpectation- 


Maximization.estimate(data, numClusters) 来 估计 起 始点 。 
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MultivartateNormalMixtureExpectationMaximization mixEM = 
new MultivariateNormalMixtureExpectationMaximization(data) ; 


/* 需要 猪 测 从 哪里 开始 */ 


MixtureMultivariateNormalDistribution initialMixture = 





MultivariateNormalMixtureExpectationMaximization.estimate(data, numClusters); 














/* 进行 拟 合 */ 
mixEM. Fit(initialMixture) ; 


/* 这 是 拟 合 模型 */ 


MixtureMultivariateNormalDistribution fittedModel = mixEM.getFittedModel(); 


for (Pair<Double, MultivariateNormalDistribution> pair : 
fittedModel.getComponents()) { 
System. out. println("****xex RRR k k cluster kkkkkkkkkkkkkkkkk" 
System.out.println("alpha: " + pair.getFirst()); 
System.out.printLn("means: " + new ArrayRealVector( 
pair.getSecond().getMeans())); 
System.out.println("covar: " 


} 
3. 优化 簇 的 个 数 


)3 


+ pair.getSecond().getCovariances()); 


EAE K HERR, Fed VA Se a TR BH Pe A RT, EEO, E 
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BL 
绘制 损失 (对 数 似 然 性 的 负 值 ) 的 图 ， 当 它 有 希望 降 至 零 时 要 留意 。 
降 至 零 ， 不 过 当 损 失 在 某 种 程度 上 不 变 时 就 停止 这 个 过 程 。 通 常 ， 禾 
棒 形状 图 像 的 明显 弯曲 处 。 代 码 如 下 : 


—=— 
I 

















MultivariateNormalMixtureExpectationMaximization mixEM = 
new MultivariateNormalMixtureExpectationMaximization(data) ; 


int minNumClusters = 2; 
int maxNumClusters = 10; 


for(int i = minNumCluster; i <= maxNumClusters; i++) { 














/* 需要 猜测 从 哪里 开始 */ 


MixtureMuLtivariateNormalDistribution initialMixture = 











直 开始 〈 例 如 2) ， 然 后 逐步 前 进 ， 计 算 每 次 尝试 的 对 数 似 然 性 。 为 了 操作 更 容易 ， 可 以 


实际 上 ， 它 从 来 不 会 
的 最 佳 个 数 是 曲棍球 

















MultivariateNormalMixtureExpectationMaximization.estimate(data, i); 


/* 进行 拟 合 */ 


mixEM. Fit(initialMixture) ; 


/* 这 是 拟 合 模型 */ 


MixtureMultivariateNormalDistribution fittedModel = mixEM.getFittedModel(); 





/* 打印 输出 对 数 似 然 性 */ 
System.out.println(i + " 1l: " + mixEM.getLogLikelihood()); 
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输出 如 下 : 


2 ll: -6.370643787350135 
3 ll: -5.907864928786343 
4 ll: -5.5789246749261014 
5 ll: -5.366040927493185 
6 LL: -5.093391683217386 
7 ll: -5.1934910558216165 
8 ll: -4.984837507547836 
9 LL: -4.9817765145490664 
10 ll: -4.981307556011888 


对 以 上 数据 进行 绘制 ， 将 显示 出 典型 的 曲棍球 棒 形状 ， 拐 点 位 于 numClusters = 7， 即 所 
模拟 的 簇 个 数 。 注 意 ， 我 们 也 可 以 把 对 数 似 然 性 存储 在 数组 中 ， 并 且 使 结果 适合 放 在 List 
中 ， 以 供 随后 的 程序 使 用 。 图 5-3 中 给 出 了 对 数 似 然 性 损失 相对 于 矮 个 数 的 绘图 。 注 意 损 
失 急 剧 下 降 ， 在 7 个 禾 时 发 生 了 弯曲 ， 这 正 是 模拟 数据 集中 徐 最 初 的 个 数 。 









































SERS 











85-3: 7 个 五 维 数据 做 的 对 数 损失 


5.4 监督 型 学 习 
给 定数 值 变量 天 及 潜在 的 非 数值 响应 Y, 如 何 表示 学 习 与 预测 之 间 的 数学 模型 ? 回想 一 











Oo 





学 习 与 预测 | 141 


下 ， 线 性 回归 模型 要 求 X 及 了 都 是 连续 变量 (例如 实数 )。 即 使 了 包含 多 个 0 或 多 个 1 
(以 及 任何 其 他 整数 )， 线 性 回归 也 很 可 能 会 失败 。 

这 里 讨论 为 常见 应 用 场景 专门 设计 的 方法 ， 这 些 应 用 场景 搜集 数值 数据 作为 变量 及 其 相应 
的 标签 。 多 数 分 类 方案 适合 于 多 维 变量 藉以 及 单 维 类 别 Y. 然而 ， 采 用 类 似 于 线性 回归 中 
多 响应 模型 的 方式 ， 包 括 神经 网 络 在 内 的 儿 种 技术 可 以 处 理 多 输出 类 别 了。 



































5.4.1 朴素 贝 叶 斯 

朴素 贝 叶 斯 可 能 是 最 基本 的 分 类 方案 ， 从 逻辑 上 来 说 ， 它 是 聚 类 之 后 的 下 一 步 。 记 得 在 聚 
类 中 ,目标 是 把 数据 分 离 或 分 类 成 为 不 同 的 组 。 然 后 可 以 独立 地 考 罕 每 个 组 ， 试 图 获得 关 
于 该 组 的 某 些 信息 ， 例 如 其 形 心 位 置 、 方 差 ， 或 者 任何 其 他 统计 指标 。 


在 朴素 贝 叶 斯 分 类 方案 中 ， 为 每 个 标签 类 型 把 数据 分 为 若干 组 (类别 )。 然 后 从 每 个 组 的 
变量 中 获得 某 些 信息 ， 这 取决 于 变量 类 型 。 例 如 ， 若 变量 是 实数 ， 则 可 以 假设 数据 的 每 个 
维度 (变量) 是 服从 正 态 分 布 的 样本 。 


对 于 整数 数据 〈 计 数 )， 可 以 假设 它 服 从 多 项 式 分 布 。 若 数据 是 二 元 的 (0 或 1)， 则 可 以 
假设 它 是 服从 伯 努 利 分 布 的 数据 集 。 这 样 就 可 以 估计 统计 量 ， 例 如 只 属于 所 标记 类 别 的 每 
个 数据 集 的 均值 以 及 方差 。 注 意 ， 不 同 于 更 复杂 的 分 类 方案 ， 在 任何 计算 或 者 误差 传播 
中 ， 从 不 使 用 标签 本 身 。 标 签 仅 用 于 把 数据 分 为 不 同 的 组 。 


根据 贝 叶 斯 定理 〈 后 验 概 率 = 先 验 概率 x 似 然 性 /证 据 )， 联 合 概率 等 于 先 验 概率 x 似 然 
性 。 在 这 里 ,证据 (evidence) 是 所 有 类 别 的 联合 概率 之 和 。 对 于 天 个 类 别 的 集合 ， 其 中 ， 
k= {1, 2 …, K} ， 给 定 输 入 向 量 x， 特 定 类 别 的 概率 计算 公式 如 下 式 : 















































D(k) p(x |k) 


k = 
P(k| x) a) 


此 处 ， 杆 素 的 独立 性 假设 允许 把 似 然 性 表示 为 n 维 变量 x 每 个 维度 的 概率 之 积 : 
PELE = pai [kp |k) p, |k) 


用 下 式 可 以 更 加 紧 竣 地 表示 : 


p(x| b=] ] ps4) 


T 


一 化 是 把 分 子 的 所 有 项 进行 求 和 : 





P(x) = D Pk) px |k) 





每 个 类 别 的 概率 是 它 发 生 的 次 数 除 以 总 数 ， 即 P(D = mWN。 此 处 采用 每 个 类 别 磊 在 每 个 特 
征 x; 上 的 乘积 。p(xi| Cx) 的 形式 ， 是 根据 关于 数据 的 假设 所 选取 的 概率 密度 函数 。 接 下 来 
的 章 市 会 讨论 正 态 分 布 、 多 项 式 分 布 以 及 伯 努 利 分 布 。 


注意 ， 若 pti| 及 = 0， 则 整个 表达 式 将 成 为 p(k|x) = 0。 对 于 一 些 条 件 概率 模 
型 ， 例如 高 新 分 布 或 人 努 利 分 布 ， malaise 但 是 对 于 多 项 式 
分 布 ， 这 可 能 会 发 生 ， 因 此 引入 小 的 因子 a 来 避免 这 种 情 ; 





为 每 个 类 别 计算 后 验 概率 之 后 ， 则 贝 叶 斯 分 类 器 就 是 关于 后 验 概率 的 决策 规则 ， 此 处 采用 
最 大 的 位 置 作为 最 可 能 的 类 别 。 


k= arg max p(k|x) 
K} 


ke{1,2, 


可 以 为 所 有 类 型 使 用 相同 的 类 别 ， 因 为 模型 训练 依赖 于 量 的 类 型 ， 这 些 量 可 以 很 容易 地 按 
照 每 个 类 别 用 MultivariateSummaryStatistics 进行 累计 。 采 用 一 种 策略 模式 来 实现 所 需要 
的 任意 一 种 条 件 概率 类 型 ， 并 且 把 它 直 接 传递 给 构造 方法 。 





public class NaiveBayes { 


Map <Integer, MultivariateSummaryStatistics> statistics; 
ConditionalProbabilityEstimator conditionalProbabilityEstimator ; 


int numberOfPoints; // 训练 模型 所 用 的 数据 点 总 数 


public NaiveBayes( 
ConditionalProbabilityEstimator conditionalProbabilityEstimator) { 
statistics = new HashMap<>(); 
this.conditionalProbabilityEstimator = conditionalProbabilityEstimator ; 
numberOfPoints = 0; 


} 


public void learn(RealMatrix input, RealMatrix target) { 
// @numTargetCols == 1， 则 采用 多 类 别 ， 例 如 6、1、2、3 
// 否则 采用 一 位 有 效 编码 ， 例 如 1000、0100、0010、0001 
numberOfPoints += input.getRowDimension(); 
for (int i = 0; i < input.getRowDimension(); i++) { 
double[] rowData = input.getRow(i); 
int label; 
if (target.getColumnDimension()==1) { 
label = new Double(target.getEntry(i, 0)).intValue(); 
} else { 
label = target.getRowVector(i).getMaxIndex(); 





} 


if(!statistics.containsKey(label)) { 
statistics.put(label, new MultivariateSummaryStatistics( 
rowData. length, true)); 

} 

statistics.get(label).addValue(rowData) ; 
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} 


public RealMatrix predict(RealMatrix input) { 


int numRows = input.getRowDimension(); 
int numCols = statistics.size(); 
RealMatrix predictions = new Array2DRowRealMatrix(numRows, numCols); 


for (int i = 0; i < numRows; i++) { 
double[] rowData = input.getRow(i); 
double[] probs = new double[numCols]; 
double sumProbs = 0; 
for (Map.Entry<Integer, MultivariateSummaryStatistics> entrySet : 
statistics.entrySet()) { 


Integer classNumber = entrySet.getKey(); 
MultivariateSummaryStatistics mss = entrySet.getValue(); 


/* 先 验 概率 (n/N)， 即 (该 类 别 中 的 点 数 / 总 点 数 ) */ 
double prob = new Long(mss.getN()).doubleValue()/numberOfPoints; 


/* 取决 于 类 型 …… 例 如 高 斯 分 布 、 多 项 式 分 布 ， 或 伯 努 利 分 布 */ 
prob *= conditionalProbabilityEstimator.getProbability(mss, 
rowData); 


probs[classNumber] = prob; 
sumProbs += prob; 


} 

/* 概率 的 L1 范 数 归 一 化 */ 

for (int j = 0; j < numCols; j++) { 
probs[j] /= sumProbs; 

predictions.setRow(i, probs); 


} 


return predictions; 
} 
接 下 来 只 需要 一 个 接口 来 指出 条 件 概率 的 形式 。 








public interface ConditionalProbabilityEstimator { 
public double getProbability(MultivariateSummaryStatistics mss, 
double[] features); 
} 


接 下 来 将 讨论 3 种 杆 素 贝 叶 斯 分 类 器 ， 其 中 每 个 分 类 器 都 实现 了 NaiveBayes 类 中 所 使 用 的 


ConditionalProbabilityEstimator 接口 。 


1. 高 斯 朴素 贝 叶 斯 分 类 器 
若 特 征 是 连续 变量 ， 则 可 以 使 用 高 斯 朴素 贝 叶 斯 分 类 器 。 














| 大 
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p(x|k)= IT | = 


然后 ， 可 以 像 下 面 这 样 实现 类 : 





import org.apache.commons.math3.distribution.NormalDistribution; 
import org.apache.commons.math3.stat.descriptive.MuLtivariateSummaryStatistics; 


public class GaussianConditionalProbabilityEstimator 
implements ConditionalProbabilityEstimator{ 


@Override 
public double getProbability(MultivariateSummaryStatistics mss, 
double[] features) { 
double[] means = mss.getMean(); 
double[] stds = mss.getStandardDeviation(); 
double prob = 
for (int i = 0; i < features.length; i++) { 
prob *= new NormalDistribution(means[i], stds[i]) 
.density(features[i]); 














} 
return prob; 
} 
} 
可 以 像 下 面 这 样 对 其 进行 测试 : 

















double[][] features = {{6, 180, 12},{5.92, 190, 11}, {5.58, 170, 12}, 
{5.92, 165, 10}, {5, 100, 6}, {5.5, 150, 8}, 
{5.42, 130, 7}, {5.75, 150, 9}}; 
String[] labels = {"male", "male", "male", "male", 
"female", "female", "female", "female"}; 
NaiveBayes nb = new NaiveBayes(new GaussianConditionalProbabilityEstimator()); 
nb.train(features, labels); 


double[] test = {6, 130, 8}; 
String inference = nb.inference(test); // female 


这 将 产生 正确 的 结果 ， 即 female, 


2. 多 项 朴素 贝 叶 斯 分 类 器 
特征 是 整 型 值 ， 例 如 计数 值 。 然 而 ， 连 续 的 特征 ， 例 如 TFIDF 也 同样 适用 。 对 于 类 别 k, 
e S N 





























Xia x;)! 
palo- eT pi 


1%! 


注意 ， 由 于 等 号 右边 前 面 的 项 仅 依赖 于 输入 向 量 x， 因 此 对 于 每 个 计算 ，p(x | 及 都 是 相同 
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的 。 幸 运 的 是 ， 在 最 终 的 归 一 化 表达 式 p(x h 中 会 消去 这 个 计算 密集 的 项 ， 从 而 能 够 使 用 
简洁 得 多 的 表达 式 。 


p(x|k)=[ [pi 
{=l 


可 以 很 容易 地 计算 所 需要 的 概率 pu = Na/ No FEE Ni 是 类 别 大 中 每 个 特征 值 的 总 和 ，N, 是 
类 别 x 中 所 有 特征 值 的 总 和 。 在 估计 条 件 概 率 时 ， 任 何 零 都 会 抵消 整个 计算 。 因 此 ， 在 估 
计 概 率 时 ， 引 入 小 的 附加 因子 a 是 有 用 的 : 当 0 < xc < 1 时 ， 称 作 Lidstone 平滑; 当 a=1 
时 ， 称 作 拉 普 拉 斯 平滑 。 由 于 用 L 范 数 对 分 子 进行 归 一 化 ， 因 此 因子 n 正 是 特征 向 量 的 
维 数 。 
































Nita 
ki gee ee 
' N,+an 





最 后 的 表达 式 如 下 式 : 


pawi) 


ia\N, +an 














对 于 大 的 x，( 例 如 大 量 的 单词 )， 在 数值 上 将 很 难处 理 。 可 以 用 求 对 数 的 方法 解决 这 个 问 
题 ， 并 采用 等 式 z= exp (ne) 还 原 回 来 。 前 面 的 表达 式 可 以 写作 下 式 : 


uw AN 二 CQ 
x |k) = ex x In| 一 一 
p(x|k) [Ss ea 


在 采用 这 种 策略 进行 实现 时 ， 在 构造 方法 中 指定 平滑 系数 。 注 意 采 用 对 数 实现 是 为 了 避免 数 
值 不 稳定 。 在 构造 方法 中 添加 声明 ， 要 求 平 交 系 数 常 量 a 满足 关系 式 0<a <1 是 明智 的 。 























public class MultinomialConditionalProbabilityEstimator 
implements ConditionalProbabilityEstimator { 


private double alpha; 


public MultinomialCondittonalProbabilityEstimator(double alpha) { 
this.alpha = alpha; // Lidstone-##: 0 < wo < 1 
} 


public MultinomialConditionalProbabilityEstimator() { 
this(1); // 拉 普 拉 斯 平滑 
} 


@Override 
public double getProbability(MultivariateSummaryStatistics mss, 
double[] features) { 





-A 


146 | 第 5 章 


} 


int n = features.length; 
double prob = 0; 
double[] sum = mss.getSum(); // 该 类 别 x 总 和 的 数组 
double total = 0.0; // 所 有 特征 的 总 数 
for (int i = 0; i < n; i++) { 
total += sum[i]; 





} 
for (int i = 0; i < n; i++) { 

prob += features[i] * Math.log((sum[i] + alpha) /(total+alpha*n)); 
} 


return Math.exp(prob); 


3. 伯 努 利 朴 素 贝 叶 斯 分 类 器 
特征 是 二 元 值 ， 例 如 占用 状态 。 每 个 特征 的 概率 是 该 列 的 平均 值 。 对 于 输入 特征 ， 则 可 以 





计算 下 

















下 的 概率 : 


p(x |) =] pox +0- p, 0) 


i=l 

















HA, ARARE 1, MAREEK E AEE. RA REE 0， 则 该 
特征 的 概率 是 1， 即 该 列 的 平均 值 。 像 下 面 这 样 实现 伯 努 利 条 件 概率 : 

















public class BernoulliConditionalProbabilityEstimator 


} 


4. Iris 示例 


implements ConditionalProbabilityEstimator { 


@Override 
public double getProbability(MultivariateSummaryStatistics mss, 


double[] features) { 
int n = features. length; 
double[] means = mss.getMean(); 
// 这 实际 上 是 每 个 特征 的 概率 ， 例 如 (计数 /总 数 ) 
double prob = 1.0; 
for (int i = 0; i < n; i++) { 
// 若 x;= 1， 则 采用 p; 若 x;= 0， 则 采用 1-p， 但 此 处 x; 是 double 型 数 
prob *= (features[i] > 0.0) ? means[i] : 1-means[i]; 











mi 


} 


return prob; 


采用 高 斯 条 件 概 率 估计 器 来 测验 Iris 数据 集 。 


Iris iris = new Iris(); 
MatrixResampler mr = new MatrixResampler(iris.getFeatures(), iris.getLabels()); 
mr.calculateTestTrainSplit(0.4, OL); 


NaiveBayes nb = new NaiveBayes(new GaussianConditionalProbabilityEstimator()); 
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nb. Learn(mr.getTrainingFeatures(), mr.getTrainingLabels()); 
RealMatrix predictions = nb.predict(mr.getTestingFeatures()); 


ClassifierAccuracy acc = new ClassifierAccuracy(predictions, 
mr.getTestingLabels()); 

System.out.println(acc.getAccuracyPerDimension()); // {1; 1; 0.9642857143} 

System.out.println(acc.getAccuracy()); // 0.9833333333333333 


5.4.2 ”线性 模型 

如 果 对 数据 集 头 进行 旋转 、 平 移 、 缩 放 ， 那 么 能 否 通 过 函数 映射 将 其 与 输出 了 联系 起 来 ? 
一 般 来 说 ， 在 这 些 操作 试图 解决 的 问题 中 ， 输 入 矩阵 X 是 数据 ， 球 与 六 是 要 进行 优化 的 自 
由 参数 。 采 用 第 2 章 的 表示 法 ， 对 于 加 权 的 输入 乞 阵 以 及 截 距 项 Z = XW + hb, XF ZKE 
个 元 素 应 用 函数 g(Z)， 按 下 式 计算 预测 矩阵 了 : 




















Y = (XW +hb") 


可 以 把 线性 模型 看 作 是 关于 输入 X DPE. KREA Be 所 与 5 时 ， 输 
出 的 误差 可 以 通过 盒子 返回 ， 按 照 所 选 算法 进行 增 量 更 新 。 需 要 注意 的 是 ， 甚 至 还 可 以 把 
误差 传递 给 输入 ， 计 算 输 出 的 误差 。 对 于 线性 模型 ， 把 误差 传递 给 输入 是 不 需要 的 ， 但 是 
正如 将 在 5.4.3 市 中 看 到 的 一 样 ， 对 于 反 向 传播 算法 而 言 ， 把 误差 传递 给 输入 却 是 必要 的 。 
广义 的 线性 模型 如 图 5-4 所 示 。 














X— o ¥ = o(XW+hb") ———o Y 
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5-4: 线性 模型 


然后 可 以 实现 LinearModel 类 ， 它 只 负责 保存 输出 函数 的 类 型 、 自 由 参数 的 状态 ， 以 及 更 
新 参数 的 简单 方法 。 





public class LinearModel { 


private RealMatrix weight; 
private RealVector bias; 
private final OutputFunction outputFunction; 


public LinearModel(int inputDimension, int outputDimension, 
OutputFunction outputFunction) { 
weight = MatrixOperations.getUniformRandomMatrix(inputDimension, 
outputDimension, OL); 
bias = MatrixOperations.getUniformRandomVector(outputDimension, OL); 
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this.outputFunction = outputFunction; 


} 


public RealMatrix getOutput(RealMatrix input) { 
return outputFunction.getOutput(input, weight, bias); 


public void addUpdateToWeight(RealMatrix weightUpdate) { 
weight = weight.add(weightUpdate) ; 
} 


public void addUpdateToBias(RealVector biasUpdate) { 
bias = bias.add(biasUpdate); 
} 
} 


输出 函数 的 接口 如 下 : 


public interface OutputFunction { 
RealMatrix getOutput(RealMatrix input, RealMatrix weight, RealVector bias); 
RealMatrix getDelta(RealMatrix error, RealMatrix output); 


} 


大 多 数 情况 下 都 无 法 精确 地 确定 丈 与 9， 使 得 和 与 了 严格 满足 它们 之 间 的 关系 。 此 处 所 
能 做 的 就 是 估计 了 〈 称 作 芯 ) ， 然 后 使 所 选择 的 损失 函数 玫 久 最 小 化 。 然 后 ， 目 标 是 根据 
下 式 在 一 系列 的 迭代 ( 记 作 1) 中 增 量 更 新 WS b 的 值 。 

W,.,=W,+ AW, 

b,.., = b, + Ab, 


本 市 集中 讨论 了 使 用 梯度 下 降 算 法 确定 万 与 5 的 值 。 回 想 一 下 ， 损 失 函 数 终归 是 所 与 5 
的 函数 ， 可 以 使 用 梯度 下 降 优 化 方法 对 损失 函数 的 梯度 进行 增 量 更 新 。 


W, =W, -4V E W) 
b,.,=b,-nvV F (b), 




















优化 的 目标 函数 是 平均 损失 (2 及)， 其 中 ， 平 均 损失 关于 参数 w 5 b, 的 梯度 的 各 个 项 可 
以 表示 如 下 : 

a Ow} dz 

ôw ô Oz Ow 
bss As SEK Ae, Ehe; 上 式 等 号 右边 的 第 二 项 是 
输出 函数 的 导数 。 








=9(z) 


第 三 项 只 是 z 关 于 w 或 者 5 的 导数 。 
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正如 我 们 所 将 看 到 的 一 样 ， 选 择 适当 的 一 对 损失 函数 与 输 





Oz 


Bee 
Ow 


ae 
Ob 


1 








8 函数， 将 带 来 数学 上 的 简化 ， 


从 而 可 以 使 用 delta 规则 。 在 这 种 情况 下 ， 对 权 值 以 及 偏 移 量 的 更 新 可 以 一 直 按 下 式 进行 : 


AW =- 1X" (Y-T) 
Ab = — nh' (Y-T) 








HERRE I) EEN SUBAREA (例如 10E - 6) 停止 变化 时 ， 可 以 停止 优化 


过 程 ， 且 假定 万 与 5 已 经 到 达 其 最 优 值 。 
代 下 去 。 因 此 ， 所 有 迭代 算法 者 









































然而 ， 由 于 一 些 奇异 数值 ， 迭 代 算法 容易 永远 迁 
要 设置 最 大 返 代 次 数 〈 例 如 1000) ， 此 后 将 终止 和 迭 代 过 程 。 





总 是 检查 是 否 达到 了 最 大 迭代 次 数 是 个 好 习惯 ， 因 为 损失 的 变化 可 能 仍然 很 大 ， 这 表明 还 
没有 找到 自由 参数 的 最 优 值 。 转 换 函数 g(2) 与 损失 国 数 ( 玖 疡 功 ) 的 形式 取决 于 所 要 解决 的 
问题 。 下 面 讨论 几 种 常见 场景 的 细节 。 


1. 线性 回归 


对 线性 回归 而 言 ，p(Z) 设置 为 恒 等 函 数 ， 即 输出 与 输入 相等 。 
9D)=Z 





这 就 是 我 们 熟悉 的 线性 回归 模型 的 形式 : 


Y =XW+hb" 





第 2 章 与 第 3 章 中 采用 不 同方 法 对 这 个 问题 进行 了 求解 。 第 2 BE FE A I] el FAB OR He 
示 ， 然 后 采用 一 个 逆向 求解 器 来 求解 


然而 ， 求 解 这 个 问题 其 至 还 有 许多 其 
个 例子 。 指 导 思 想 是 通过 对 变量 参数 的 惩罚 以 消去 在 优化 过 程 中 没有 用 处 的 那些 变量 。 
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public class LinearOutputFunction implements OutputFunction { 


@Override 


public RealMatrix getOutput(RealMatrix input, RealMatrix weight, 


RealVector 


bias) { 


return MatrixOperations.XWplusB(input, weight, bias); 


@Override 


public RealMatrix getDelta(RealMatrix errorGradient, RealMatrix output) { 





// i 


8 梯度 全 部 是 1， 


return errorGradient; 








Al 














此 只 返 





口 








errorGradient 


自由 参数 。 在 第 3 章 中 则 用 最 小 二 乘 方法 进行 求解 。 
归 以 及 弹性 网 络 只 是 其 


AJL 





2. logistic 回归 
用 于 求解 y 是 0 或 1 的 问题 ,也 可 以 是 多 维 问题 ,例如 y=0, 1, 1, 0, 1 。 
1 
对 于 非 线 性 函数 和 “二 ， 采 用 梯度 下 降 法 时 ， 需 要 函数 的 导数 : 
ma exp(-z) 
0 











注意 ， 导 数 也 可 以 方便 地 用 原始 函数 来 表示 。 这 是 因为 它 允 许 重 用 关于 9 的 计算 结果 ， 而 
不 是 必须 对 所 有 计算 代价 高 兄 的 矩阵 代数 进行 重新 计算 。 


P'O = 9(2)(1 — 9(2)) 
那么 ， 梯 度 下 降 法 可 以 像 下 面 这 样 实现 : 





public class LogisticOutputFunction implements OutputFunction { 


@Override 
public RealMatrix getOutput(RealMatrix input, RealMatrix weight, 
RealVector bias) { 

return MatrixOperations.XWpLlusB(input, weight, bias, new Sigmoid()); 
} 


@Override 

public RealMatrix getDelta(RealMatrix errorGradient, RealMatrix output) { 
// 这 将 永久 改变 output 
output.walkInOptimizedOrder(new UnivariateFunctionMapper( 
new LogisticGradient())); 





// 现在 的 output 是 原 output 的 梯度 
return MatrixOperations.ebeMultiply(errorGradient, output); 
} 
private class LogisticGradient implements UnivariateFunction { 
@Override 


public double value(double x) { 
return x * (1 - x); 
} 


} 


TRAE MHA BOT SAIN, ERAF P= (2) APR: 
aL -y 








~ —— PU ¥) 
oy Oz y(1-y) 
因此 ， 接 下 来 可 以 把 它 化 简 为 下 式 : 
ES 
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再 注意 到 有 下 面 的 等 式 : 


Oz 
ie 
Ow 


损失 函数 相对 于 权 值 的 梯度 可 以 表示 为 下 式 : 





T 











Of A 
—=(-y)x 
Ow 





可 以 引入 学 习 速率 7 来 减缓 更 新 过 程 。 针 对 所 使 用 的 数据 矩阵 进行 调整 后 ， 最 终 公 式 如 下 : 





AW =- 7X’ (Y-T) 
Ab =- nh’ (Y-T) 




















此 处 , hh 是 m 维 向 量 ， 其 分 量 全 部 为 1。 注意 到 引入 学 习 速 率 ”， 它 通常 取 值 在 0.0001~1 
范围 内 ， 用 于 限制 参数 收敛 的 速度 。 对 于 较 小 的 w 值 ， 更 可 能 找到 正确 的 权 值 ， 但 代价 是 
需要 完成 更 多 次 耗 时 的 迁 代 。 对 于 较 大 的 7 了 值 ， 将 以 快 得 多 的 速度 完成 算法 的 学 习 任务 ， 
然而 可 能 会 不 经 意 地 略 过 最 优 解 ， 得 到 无 意义 的 权 值 。 


3. 归 一 化 指数 (softmax) 回归 

归 一 化 指数 (softmax) 回归 与 logistic 回归 类 似 ， 但 是 目标 变量 可 以 是 多 元 的 〈 介 于 0 与 
numClasses — 1 的 整数 )。 可 以 用 一 位 有 效 编码 对 输出 进行 转换 ， 使 得 了 = {0,0,1,0} 。 注 意 ， 
与 多 输出 的 logistic 回归 不 同 ， 此 处 在 每 一 行 中 只 有 一 个 位 置 能 够 设置 为 1， 而 所 有 其 他 位 
置 必须 为 0。 接 着 ， 对 转换 后 的 矩阵 的 每 个 元 素 求 指数 函数 (exp) 的 值 ， 然 后 再 逐 行进 行 
L1 归 一 化 。 













































































__exp(2,) 
x, exp(z; ) 





9(2;) 


因为 导数 涉及 多 个 变量 ， 所 以 雅 可 比 矩 阵 (Jacobian) 用 下 面 的 项 取代 了 梯度 : 





-PON isj 
4 -pp ， ij 








于 是 ， 对 于 单个 的 p 维 输出 以 及 预测 ， 可 以 计算 下 面 的 量 : 














多- 发) IV. a 一 为 区 
OL OY _ V V Yp DV, D-9) … PD, 
Op Oz WV, A : : a : 
DV; =P V2 ees y,pd-y,) 
可 以 简化 为 下 式 : 
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A 


Te GO, -J,)) 
Oz 








每 个 项 的 更 新 规则 与 采用 梯度 下 降 法 的 线性 模型 完全 相同 。 


ae. 
m ee 
这 里 有 个 实际 问题 ， 那 就 是 需要 对 输入 进行 两 轮 计算 来 得 到 归 一 化 指数 输出 。 首 先 ， 对 每 
个 参数 求 指数 函数 的 值 ， 并 随时 记录 累加 和 。 然 后 ， 再 次 对 这 个 列表 进行 迭代 ， 每 个 项 都 
除 以 累加 和 。 当 ( 且 仅 当 ) SATE HBB SURE IRI, ARIE RAS logistic 
回归 的 更 新 公式 完全 相同 。5.4.3 节 中 将 显 式 地 给 出 这 个 计算 。 





























public class SoftmaxOutputFunction implements OutputFunction { 


@Override 
public RealMatrix getOutput(RealMatrix input, RealMatrix weight, 
RealVector bias) { 
RealMatrix output = MatrixOperations.XWplusB(input, weight, bias, 
new Exp()); 
MatrixScaler.1l1(output); 
return output; 


} 


@Override 
public RealMatrix getDelta(RealMatrix error, RealMatrix output) { 


RealMatrix delta = new BlockRealMatrix(error.getRowDimension(), 
error.getColumnDimension()); 


for (int i = 0; i < output.getRowDimension(); i++) { 
delta.setRowVector(i, getJacobian(output.getRowVector(i)). 
preMultiply(error.getRowVector(i))); 

} 

return delta; 


} 


private RealMatrix getJacobian(RealVector output) { 


int numRows = output.getDimension(); 
int numCols = output.getDimension(); 
RealMatrix jacobian = new BlockRealMatrix(numRows, numCols); 
for (int i = 0; i < numRows; i++) { 
double output_i = output.getEntry(t); 
for (int j = i; j < numCols; j++) { 
double output_j = output.getEntry(j); 
if(i==j) { 
jacobian.setEntry(i, i, output_i*(1-output_i)); 
} else { 
jacobian.setEntry(i, j, -1.0 * output_i * output_j); 
jacobian.setEntry(j, i, -1.0 * output_j * output_i); 
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return jacobian; 


} 


4. 双 曲 正切 函数 
另 一 种 常见 的 激活 函数 利用 了 双 曲 正切 函数 tanh(z)， 如 下 式 所 示 : 


g(z) = tanh(z) 
yz) =1 — tanh’ (z) = 1 -9(z) 


再 一 次 ， 导 数 pz) 重用 了 从 po) 中 计算 的 结果 。 

















public class TanhOutputFunction implements OutputFunction { 


@Override 


public RealMatrix getOutput(RealMatrix input, RealMatrix weight, 
RealVector bias) { 
return MatrixOperations.XWplusB(input, weight, bias, new Tanh()); 


} 
@Override 


public RealMatrix getDelta(RealMatrix errorGradient, RealMatrix output) { 
// 这 永久 地 修改 了 output 
output.walkInOptimizedOrder( 
new UnivariateFunctionMapper(new TanhGradient())); 


// output 现 在 是 原来 output 的 梯度 


return MatrixOperations.ebeMultiply(errorGradient, output); 


} 


private class TanhGradient implements UnivariateFunction { 
@Override 


public double value(double x) { 
return (1 - x * x); 
} 


} 


5. 线性 模型 估计 器 
利用 梯度 下 降 算法 以 及 适当 的 损失 函数 ， 可 以 构造 简单 的 线性 估计 器 ， 它 采用 delta 规则 对 
参数 进行 迄 代 更 新 。 这 个 仅 适 用 于 输出 函数 以 及 损失 函数 配对 正确 的 情形 ， 如 表 5-1 所 示 。 


表 5-1: delta 规 则 中 的 配对 
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然后 ， 可 以 扩展 IterativeLearningProcess 类 ， 并 添加 输出 函数 预测 以 及 更 新 的 代码 。 
public class LinearModelEstimator extends IterativeLearningProcess { 


private final LinearModel linearModel; 
private final Optimizer optimizer; 


public LinearModelEstimator ( 
LinearModel linearModel, 
LossFunction LossFunction, 
Optimizer optimizer) { 
super(lossFunction) ; 
this. linearModel = linearModel; 
this.optimizer = optimizer; 


} 


@Override 
public RealMatrix predict(RealMatrix input) { 
return LinearModel.getOutput(input) ; 


} 


@Override 
protected void update(RealMatrix input, RealMatrix target, 
RealMatrix output) { 
RealMatrix weightGradient = 
input. transpose().multiply(output.subtract(target)); 
RealMatrix weightUpdate = optimizer.getWeightUpdate(weightGradient) ; 
LinearModel.addUpdateToWeight(weightUpdate) ; 


RealVector h = new ArrayRealVector(input.getRowDimension(), 1.0); 
RealVector biasGradient = output.subtract(target).preMultiply(h); 
RealVector biasUpdate = optimizer.getBiasUpdate(biasGradient) ; 
LinearModel. addUpdateToBias(biasUpdate) ; 

} 


public LinearModel getLinearModel() { 
return LinearModel; 


} 


public Optimizer getOptimizer() { 
return optimizer; 
} 
} 


6. Iris 示例 
Iris 数据 集 是 探究 线性 分 类 器 很 好 的 示例 。 





/* 获得 数据 并 拆 分 为 训练 集 与 测试 集 */ 

Iris iris = new Iris(); 

MatrixResampler resampler = new MatrixResampler(iris.getFeatures(), 
iris.getLabels()); 

resampler.calculateTestTrainSplit(0.40, OL); 
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/* 构造 线性 估计 器 */ 

LinearModelEstimator estimator = new LinearModelEstimator ( 
new LinearModel(4, 3, new SoftmaxOutputFunction()), 
new SoftMaxCrossEntropyLossFunction(), 
new DeltaRule(0.001)); 


estimator .setBatchSize(0); 
estimator .setMaxIterations(6000) ; 
estimator .setTolerance(10E-6); 


/* 模型 参数 的 学 习 */ 

estimator. lLearn(resampler.getTrainingFeatures(), resampler.getTrainingLabels()); 
/* 根据 测试 数据 进行 预测 */ 

RealMatrix prediction = estimator.predict(resampler.getTestingFeatures()); 

/* 结果 */ 


ClassifierAccuracy accuracy = new ClassifierAccuracy(prediction, 
resampler.getTestingLabels()); 


estimator .isConverged(); // true 
estimator .getNumIterations(); // 3094 
estimator .getLoss(); // 0.0769 
accuracy.getAccuracy(); // 0.983 


accuracy.getAccuracyPerDimension(); // {1.0, 0.92, 1.0} 


5.4.3 深度 网 络 

把 某 个 线性 模型 的 输出 提供 给 另 一 个 线性 模型 ， 作 为 后 者 的 输入 ， 可 以 产生 非 线性 系统 ， 
该 系统 可 以 模拟 复杂 的 行为 。 有 多 层 的 系统 称 作 深度 网 络 。 线 性 模型 具有 输入 与 输出 ， 深 
度 网 络 在 输入 与 输出 之 间 添 加 了 多 个 “隐藏 的 ” 层 。 关 于 深度 网 络 的 大 多 数 解 释 是 把 输入 
层 、 隐 基层 以 及 输出 层 称 作 独 立 的 量 。 然 而 ， 本 书 采用 另外 一 种 观点 ， 即 深度 网 络 不 过 是 
由 多 个 线性 模型 组 成 的 。 于 是 ， 可 以 把 深度 网 络 看 作 纯 粹 的 线性 代数 问题 。 图 5-5 说 明了 
多 层 神 经 网 络 是 如 何 可 以 被 看 作 一 系列 线性 模型 的 。 
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5-5: 深度 网 络 


1. 网 络 层 
可 以 把 线性 模型 的 概念 扩展 为 网 络 层 的 形式 ， 在 网 络 层 中 必须 保留 输入 、 输 出 和 误差 。 于 
是 ， 网 络 层 的 代码 是 对 LinearModel 类 的 扩展 。 








public class 


RealMatr 
RealMatr 
RealMatr 
RealMatr 
Optimize 


public N 
supe 
this 


} 


public v 


NetworkLayer extends LinearModel { 


ix input; 

ix inputError; 
ix output; 

ix outputError; 
r optimizer; 


etworkLayer(int inputDimension, int outputDimension, 
OutputFunction outputFunction, Optimizer optimizer) { 
r(inputDimension, outputDimension, outputFunction); 
optimizer = optimizer; 


oid update() { 


// 反 向 传播 误差 
/* D 等 于 eps o f'(XW), ， 其 中 o 是 Hadamard 积 ; 


或 者 


Real 











等 于 Jf'(XN) ， 其 中] 是 雅 可 比 和 矩阵 */ 
Matrix deltas = getOutputFunction().getDelta(outputError, output); 





[* Et = DW */ 


inpu 


tError = deltas.multiply(getWeight().transpose()); 


/* W = W - alpha * delta * input */ 


Real 


Matrix weightGradient = input.transpose().multiply(deltas) ; 


/* Wey = Wey + delta we, */ 
addUpdateToWeight (optimizer .getWweightUpdate(weightGradient) ); 


// 这 本 质 上 是 对 delta 的 列 进行 求 和 ， 该 向 量 就 是 gradb 


Real 
Real 


Vector h = new ArrayRealVector(input.getRowDimension(), 1.0); 
Vector biasGradient = deltas.preMultiply(h); 


addUpdateToBias(optimizer .getBiasUpdate(biasGradient)); 


} 
2. 前 馈 





为 了 计算 网 络 输出 ， 必 须 正 向 通过 网 络 每 一 层 ， 以 向 各 层 输入 提供 数据 。 用 网 络 输入 XX 





计算 第 一 层 的 输出 





O: 


Y, = 9 XW, +hb!) 





偷 出 作为 第 二 层 的 输入 : 


第 二 层 的 输出 如 下 : 


f, = 9(X,W, + hb;) = o(YW, 二 hb;) 
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通常 ， 第 一 层 之 后 每 一 层 /的 输出 可 以 用 前 一 层 的 输出 表示 如 下 : 
Ê = o(Y_W, + hb; ) 


于 是 , L MRI LR AM AIEEE 





Y, =p, (p (p(X W, + hbi W, +hb,) W, +hb;) 


AA AE LNT, ATL SAGAS ERRA : 


f, = 99°29, °9(Z) 





除了 独特 的 权 值 之 外 ， 每 一 层 都 可 以 采用 不 同形 式 的 激活 函数 。 这 样 ， 可 以 明确 地 知道 前 
馈 深 度 神经 网 络 (也 称 作 多 层 感知 器 ) 不 过 是 由 任意 线性 模型 组 成 的 而 已 。 然 而 ， 结 果 却 
是 非常 复杂 的 非 线性 模型 。 


3. 反 向 传播 
此 时 需要 反 向 传播 网 络 输 出 误差 。 对 于 最 后 一 层 (输出 层 )， 反 向 传播 损失 的 梯度 v2(Y,)。 
对 于 兼容 的 损失 函数 — pee 与 线性 模型 估计 器 相同 。 就 像 5.1.2 THE ABR AB 
样 ， 定 义 新 量 是 便利 的 ， 这 个 量 就 是 delta 层 ，D， 它 是 Yo 与 输出 函数 的 雅 可 比 矩阵 张 量 
的 矩阵 乘积 
































=y J” 
D= 了 J 





在 大 多 数 情况 下 ， 采 用 输出 函数 的 梯度 就 足够 了 ， 上 面 的 表达 式 可 以 简化 为 下 式 : 
D=Y,,°9(Z) 


此 处 要 存储 D, KAA PRD SE FAB E, Eafe AMR GE. EE FET ed FEHB ie EE AT 
更 新 : 








Xa = DW" 


接 下 来 ， 按 下 式 计算 权 值 的 梯度 以 及 偏 移 量 的 梯度 ， 其 中 严 是 分 量 全 部 为 1 且 维 数 为 m 的 
向 量 : 

















VW=xX'D 
Vb=h'D 


注意 表达 式 hD 等 价 于 对 D 的 每 一 列 进行 求 和 。 然 后 ， 各 层 的 权 值 可 以 采用 所 选择 的 优化 


规则 (通常 是 梯度 下 降 法 的 某 种 变形 ) 进行 更 新 。 这 可 以 完成 网 络 层 所 需 的 所 有 计算 ! 然 
后 设置 下 面 一 层 的 Yoa 为 新 计算 得 到 的 Xu， 并 重复 这 个 过 程 ， 直 至 第 一 层 的 参数 被 更 新 。 








确保 在 更 新 权 值 之 前 先 计 算 反 向 传播 误差 ! 





4. 深度 网 络 估计 器 


采用 与 线性 模型 相同 的 迭代 过 程 ， 可 以 学 习 深 度 网 络 的 参数 。 在 这 种 情况 下 ， 完 整 的 前 馈 过 
程 作 为 一 个 预测 步骤 ， 反 向 传播 过 程 作为 一 个 更 新 步骤 。 通 过 扩展 IterativeLearningProcess 





类 ， 并 采用 子 类 NetworkLayer 构造 线性 模型 的 各 个 层 ， 从 而 实现 了 深度 网 络 估计 器 


public class DeepNetwork extends IterativeLearningProcess { 
private final List<NetworkLayer> layers; 


public DeepNetwork() { 
this. layers = new ArrayList<>(); 


} 


public void addLayer(NetworkLayer networkLayer) { 
Layers.add(networkLayer); 


} 


@Override 
public RealMatrix predict(RealMatrix input) { 


/* 初始 输入 input 必 须 被 深度 复制 ， 否 则 会 被 覆盖 */ 
RealMatrix LayerInput = input.copy(); 


for (NetworkLayer layer : layers) { 
Layer.setInput(LayerInput) ; 


/* 计算 输出 output， 并 且 设 置 为 下 一 层 的 输入 tnput */ 
RealMatrix output = Layer.getOutput(layerInput); 
layer .setOutput(output) ; 





/* 
不 需要 进行 深度 复制 ， 但 是 要 注意 每 一 层 的 输入 input， 
与 前 一 层 的 输出 output 共 享 内 存 

*/ 

layerInput = output; 














} 
/* LayerInput 拥 有 最 终 的 输出 output…… 进 行 深度 复制 */ 
return layerInput.copy(); 





} 


@Override 
protected void update(RealMatrix input, RealMatrix target, 
RealMatrix output) { 


/* 获得 网 络 误差 的 梯度 ， 启 动 反 向 传播 过 程 */ 
RealMatrix layerError = getLossFunction() 
.getLossGradient(output, target).copy(); 
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/* 创建 列表 的 迭代 器 ， 并 设 定 游标 指向 最 后 一 层 */ 


ListIterator li = layers.listIterator(layers.size()); 


while (li.hasPrevious()) { 
NetworkLayer Layer = (NetworkLayer) li.previous(); 
/* 从 更 高 层 获得 误差 输入 */ 
layer .setOutputError(LayerError ); 
/* 反 向 传播 误差 ， 并 更 新 权 值 */ 
Layer .update(); 
/* 向 下 一 层 传递 误差 */ 
LayerError = Layer.getInputError(); 











} 


5. MNIST 示例 
MNIST 是 经 典 的 手写 数字 数据 集 ， 常 用 于 测试 学 习 算 法 。 此 处 通过 使 用 拥有 两 个 隐藏 层 的 
简单 网 络 获得 了 94% 的 准确 率 。 











MNIST mnist = new MNIST(); 


DeepNetwork network = new DeepNetwork(); 





/* 输入 层 、 隐 藏 层 以 及 输出 层 */ 
network.addLayer(new NetworkLayer(784, 500, new TanhOutputFunction(), 
new GradientDescentMomentum(0.0001, 0.95))); 





network.addLayer(new NetworkLayer(500, 300, new TanhOutputFunction(), 
new GradientDescentMomentum(0.0001, 0.95))); 


network.addLayer(new NetworkLayer(300, 10, new SoftmaxOutputFunction(), 
new GradientDescentMomentum(0.0001, 0.95))); 


/* 运行 时 参数 */ 

network.setLossFunction(new SoftMaxCrossEntropyLossFunction()); 
network.setMaxIterations(6000); 

network.setTolerance(10E-9); 

network.setBatchSize(100); 


[* 28>) 4] 
network. Learn(mnist.trainingData, mnist.trainingLabels); 


/* 预测 */ 


RealMatrix prediction = network.predict(mnist.testingData) ; 

















/* 计算 准确 率 */ 
ClassifierAccuracy accuracy = 
new ClassifierAccuracy(prediction, mnist.testingLabels); 





/* 结果 */ 

network.isConverged(); // false 
network.getNumIterations(); // 10000 
network.getLoss(); // 0.00633 
accuracy.getAccuracy(); // 0.94 
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第 6 章 


Hadoop MapReduce 





如 果 需 要 底层 控制 ， 并 且 想 要 优化 大 数据 管道 或 者 使 其 效率 更 高 ， 那 么 需要 用 Java 编写 
MapReduce 任务 。 采 用 MapReduce 并 不 是 必需 的 ， 却 是 值得 的 ， 因 为 它 是 一 个 设计 良好 
的 系统 以 及 API。 学 习 关 于 MapReduce 的 基本 知识 可 以 让 你 走 得 更 快 、 更 远 ， 不 过 在 着 手 
编写 定制 的 MapReduce 任务 之 前 ， 不 要 忽略 了 诸如 Apache Drill 之 类 的 工具 ， 它 们 可 以 在 
Hadoop 上 编写 出 标准 的 SQL 查询 语句 。 

















本 章 假设 在 本 地 计算 机 上 或 者 通过 访问 Hadoop 和 集群， 可 以 运行 Hadoop 分 布 式 文件 系统 
(HDFS)。 为 了 模拟 实际 MapReduce 任务 是 如 何 运 行 的 ， 可 以 在 同一 个 节点 上 以 伪 分 布 方 
式 (pseudodistributed mode) 运行 Hadoop， 这 个 节点 可 以 是 本 地 节点 ， 也 可 以 是 远程 节 
点 。 考 虑 到 如 今 在 机 箱 (或 者 便携 式 计算 机 ) 中 能 够 安装 多 少 CPU、RAM 以 及 存储 资源 
这 一 事实 ， 我 们 本 质 上 可 以 构造 微型 超级 计算 机 ， 它 能 够 运行 相当 大 的 分 布 式 任 务 。 可 以 
在 本 地 计算 机 上 (针对 数据 子 集 ) 进行 处 理 ， 并 且 对 应 用 进行 调试 ， 在 调试 好 应 用 后 再 将 
其 扩展 至 整个 集群 。 


如 果 合 理 地 安装 了 Hadoop 的 客户 端 ， 那 么 只 需 键 入 下 列 命 令 ， 就 可 以 得 到 所 有 可 用 的 
Hadoop 操作 的 完整 列表 : 














bash$ hadoop 


6.1 Hadoop 分 布 式 文件 系统 


Apache Hadoop 有 命令 行 工具 ， 用 来 访问 Hadoop 的 文件 系统 ， 并 启动 MapReduce 任务 。 
采用 下 面 的 方式 可 以 调用 文件 系统 访问 命令 fs: 
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bash$ hadoop fs <command> <args> 





该 命令 是 由 前 导 连 字符 以 及 任意 数目 的 标准 UNIX 文件 系统 命令 组 成 的 ， 例 如 Us, cd 或 
mkdir。 例 如 ， 为 了 列 出 HDFS 根 目 录 中 的 所 有 项 ， 可 以 键入 下 述 命 令 : 


bash$ hadoop fs -Ls / 


注意 ,访问 根 目录 时 要 加 上 和 斜 杠 /。 如 果 没 有 加 上 和 斜 枉 ， 那 么 上 述 命令 什么 结果 也 不 会 返 
回 ， 这 样 会 让 你 误 以 为 自己 的 HDFS 是 空 的 。 键 入 命令 hadoop fs 将 打印 出 所 有 可 用 的 文 
件 系统 操作 。 一 些 更 有 用 的 操作 包括 : 把 数据 复制 到 HDFS， 或 者 把 数据 从 HDFS 复制 到 
其 他 地 方 ， 删 除 目录 ， 在 目录 中 合并 数据 。 


把 本 地 文件 复制 到 Hadoop 文件 系统 中 的 命令 如 下 : 
































bash$ hadoop fs -copyFromLocal <localSrc> <dest> 





把 文件 从 HDFS 复制 到 本 地 驱动 器 的 命令 如 下 : 





bash$ hadoop fs -copyToLocal <hdfsSrc> <localDest> 





运行 MapReduce 任务 之 后 ， 在 任务 的 输出 目录 中 很 可 能 有 许多 文件 。 用 户 不 需要 逐个 获取 
这 些 文件 ，Hadoop 有 个 便利 的 操作 ， 可 以 把 这 些 文件 合并 为 一 个 文件 ， 然 后 把 结果 存储 
在 本 地 。 








bash$ hadoop fs -getmerge <hdfs_output_dir> <my_local_dir> 


如 果 MapReduce 检测 到 输出 目录 已 经 存在 ， 则 几乎 会 马上 导致 MapReduce 任务 失败 。 因 此 ， 
运行 MapReduce 任务 的 一 项 必要 操作 是 ， 如 果 输 出 目录 已 经 存在 ， 则 首先 要 移 除 该 目录 。 











bash$ hadoop fs -rm rf <hdfs_dir> 


6.2 MapReduceth A244 


MapReduce 运行 分 布 式 计算 中 令 人 头疼 的 并 行 范例 。 最 初 ， 把 数据 拆 分 为 多 个 分 块 ， 再 把 
这 些 分 块 送 至 相同 的 映射 器 (mapper) 类 ， 从 数据 中 逐 行 提取 键 - 值 对 。 接 下 来 再 把 这 些 
键 一 值 对 划分 为 键 - 列表 对 ， 其 中 列表 是 经 过 排序 的 。 通 常 ， 划 分 后 的 键 - 列表 对 个 数 就 
是 归 约 任务 的 个 数 ， 但 是 并 非 必 须 如 此 。 事 实 上 ， 多 个 键 - 列表 对 可 以 在 相同 的 分 区 中 ， 
且 由 相同 的 归 约 器 (reducer) 处 理 ， 但 是 可 以 确保 每 个 键 - 列表 对 不 会 被 分 割 为 跨 分 区 或 
者 由 不 同 的 归 约 器 进行 处 理 。 图 6-1 中 显示 了 数据 在 MapReduce 框架 中 传递 的 一 般 流 程 。 
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B 6-1; MapReduce 架构 
例如 ， 假 设 有 如 下 的 数据 ; 


San Francisco, 2012 
New York, 2012 
San Francisco, 2017 
New York, 2015 
New York, 2016 


对 于 数据 集中 的 每 一 行 ， 映射 器 可 能 输出 像 (San Francisco, 2012) 这 样 的 键 - 值 对 。 然 
后 分 区 器 (partitioner) 会 按照 键 收集 数据 并 对 列表 中 的 值 进行 排列 。 





(San Francisco, [2012, 2017]) 
(New York, [2012, 2015, 2016]) 





可 以 设 定 归 约 器 的 功能 为 输出 最 大 的 年 份 ， 使 得 〈 写 人 到 输出 目录 中 的 ) 最 终结 果 如 下 : 


San Francisco, 2017 
New York, 2016 


Hadoop MapReduce API 允许 使 用 复合 键 和 定制 比较 器 对 键 进 行 分 区 以 及 对 值 排序 ， 考 虑 到 
这 一 点 很 重要 。 


6.3 编号 MapReduce 应 用 


在 Hadoop 生态 系统 中 ， 尽 管 有 多 种 存储 以 及 移动 数据 的 方法 ， 但 是 本 章 将 集中 讨论 纯 文 
本 文件 。 不 论 底 层 数 据 是 用 字符 串 、CSV、TSYV 还 是 ISON 数据 字符 串 的 形式 存储 的 ， 都 
可 以 轻松 地 对 数据 进行 读 取 、 共 享 以 及 处 理 。Hadoop 也 提供 了 能 够 读 写 自己 的 Sequence 
与 Map 文件 格式 的 资源 ， 有 时 可 能 想 要 探究 各 种 第 三 方 的 序列 化 格式 ， 例 如 Apache Avro, 
Apache Thrift, Google Protobuf、Apache Parquet 以 及 其 他 格式 。 虽 然 所 有 这 些 格式 都 提供 
了 操作 方面 以 及 效率 方面 的 优势 ， 但 也 必须 要 考虑 到 它们 确实 增加 了 复杂 性 。 
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6.3.1 剖析 MapReduce 任 务 
基本 的 MapReduce 任务 只 有 少数 必要 的 功能 。 重 写 run() 方法 的 实质 就 是 在 该 方法 中 包含 
Job 类 的 单 例 。 





public class BasicMapReduceExample extends Configured implements Tool { 


public static void main(String[] args) throws Exception { 
int exitCode = ToolRunner.run(new BasicMapReduceExample(), args); 
System.exit(exitCode) ; 


} 


@Override 
public int run(String[] args) throws Exception { 


Job job = Job.getInstance(getConf()); 
job.setJarByCLlass(BasicMapReduceExample.class); 


job.setJobName("BasicMapReduceExample"); 


FileInputFormat.addInputPath(job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 


return job.waitForCompletion(true) ? 0 : 1; 


} 





注意 ， 由 于 还 没有 定义 任何 Mapper 类 或 Reducer 类 ， 以 上 任务 会 使 用 默认 的 类 ， 该 类 把 输 
入 文件 不 加 修改 地 复制 到 输出 目录 中 。 在 深入 研究 如 何 定制 Mapper 类 以 及 Reducer 类 之 
前 ， 必 须 首 先 理解 Hadoop MapReduce 所 需要 的 专 有 数据 类 型 。 








6.3.2 ”Hadoop 数 据 类 型 


通过 MapReduce 应 用 传递 数据 时 ， 必 须 采 用 既 可 靠 又 有 效 的 格式 。 遗 憾 的 是 (根据 
Hadoop 的 作者 )， 原 生 Java 基本 类 型 (例如 boolean、int、double) 以 及 更 复杂 的 类 型 
(例如 String、Map) 并 不 能 很 好 地 传递 。 由 于 这 个 原因 ，Hadoop 生态 系统 有 自己 独特 的 
序列 化 类 型 ， 在 所 有 MapReduce 应 用 中 ， 这 些 类 型 是 必需 的 。 注 意 ， 所 有 常规 的 Java 类 
型 在 本 书 的 MapReduce 代码 内 部 可 以 很 好 地 工作 。 只 有 不 同 MapReduce 组 件 (映射 器 与 
日 约 器 ) 进行 连接 时 ， 才 把 原生 Java 基本 类 型 转换 为 Hadoop 类 型 。 

















Ti 





1. Writable 类 型 

在 Hadoop 中 ， 原 生 Java 基本 类 型 都 有 相应 的 表示 ， 但 是 最 有 用 的 类 型 是 Booleanritable, 
IntWritable, LongWritable 以 及 DoubleWritable, $Æ FA Text 类 型 表示 Java 的 String 类 
型 。 采 用 NullWritable 类 型 表示 null, Æ MapReduce 任务 中 ， 若 没有 数据 通过 特别 的 键 
或 值 传递 ， 则 这 种 类 型 会 派 上 用 场 。 此 外 ， 当 采用 与 userid 或 者 其 他 独特 标识 符 对 应 的 散 
列 值 作为 键 时 ， 其 至 会 用 到 MD5Hash 类 型 。 还 有 MapWritable 类 型 ， 它 用 于 创建 可 比较 的 





























HashMap 版 本 的 Writable 类 型 。 所 有 这 些 类 型 都 是 可 比较 的 〈 例 如 ， 它 们 有 hash() 方法 以 
及 equals() 方法 ， 能 够 对 MapReduce 任务 中 的 事件 进行 比较 与 排序 )。 当 然 ， 还 有 更 多 的 
类 型 ， 但 是 上 述 这 些 是 其 中 一 些 比较 有 用 的 类 型 。 一 般 来 说 ，Hadoop 类 型 在 构造 方法 中 
采用 原生 Java 基本 类 型 作为 参数 。 





Int count = 42; 
IntWritable countWritable = new IntWritable(count) ; 


String data = "The is a test string"; 
Text text = new Text(data); 





注意 ， 在 Mapper 类 以 及 Reducer 类 的 代码 内 部 使 用 原生 Java 基本 类 型 。 只 有 这 些 类 的 实 
例 的 键 、 值 以 及 输入 与 输出 必须 使 用 Hadoop 可 写 类 型 (如 果 是 键 ， 则 还 要 求 是 可 比较 
的 )， 因 为 这 是 在 MapReduce 组 件 之 间 进 行 数据 传递 








2. 定制 的 Writable 类 型 与 writableComparable 类 型 

有 时 需要 使 用 Hadoop 中 没有 包括 的 特殊 类 型 。 一 般 来 说 ，Hadoop 类 型 必须 实现 Writable 
接口 ， 它 采用 write() 方法 进行 对 象 的 序列 化 ， 采 用 read() 方法 进行 对 象 的 反 序 列 化 。 然 
而 ， 如 果 把 对 象 用 作 键 ， 那 么 它 必 须 实 现 WritableComparable 接口 ， 因 为 在 分 区 与 排序 时 
需要 用 到 compareTo() 方法 以 及 hashCode() 方法 。 








口 Writable 类 型 

因为 Writable 接口 具有 两 个 方法 ，write() 以 及 readFieLds()， 所 以 基本 的 定制 可 写 类 型 
只 需要 重 写 这 两 个 方法 。 然 而 ， 可 以 增加 带 参数 的 构造 方法 ， 使 得 可 以 像 前 面 的 例子 中 创 
建 IntWritable 以 及 Text 实例 那样 来 实例 化 对 象 。 此 外 ， 若 添加 静态 read() 方法 ， 则 需 
要 无 参数 的 构造 方法 。 














public class CustomWritable implements Writable { 


private int id; 
private long timestamp; 


public CustomWritable() { 


public CustomWritable(int id, long timestamp) { 
this.id = id; 
this.timestamp = timestamp; 


public void write(DataOutput out) throws IOException { 
out.writeInt(id); 
out.writeLong(timestamp); 


} 


public void readFields(DataInput in) throws IOException { 
id = in.readInt(); 
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timestamp = in.readLong(); 


} 


public static CustomWritable read(DataInput in) throws IOException { 
CustomWritable w = new CustomWritable(); 
w.readFields(in); 
return w; 


} 


口 WritableComparable 类 型 
如 果 把 定制 可 写 类 型 用 作 键 ， 那 么 除了 wite) 方法 与 readField() 方 法 之 外 ， 还 需要 实 
现 hashCode() 方法 与 compareTo() 方法 。 


public class CustomWritableComparable implements WritableComparable { 


private int id; 
private long timestamp; 


public CustomWritable() { 
} 


public CustomWritable(int id, long timestamp) { 
this.id = id; 
this.timestamp = timestamp; 


} 


public void write(DataOutput out) throws IOException { 
out.writeInt(id); 
out.writeLong(timestamp); 


} 


public void readFields(DataInput in) throws IOException { 
id = in.readInt(); 
timestamp = in.readLong(); 


} 


public int compareTo(CustomWritableComparable o) { 

int thisValue = this.value; 

int thatValue = o.value; 

return (thisValue < thatValue ? -1 : (thisValue==thatValue ? 0 : 1)); 
} 


public int hashCode() { 
final int prime = 31; 
int result = 1; 
result = prime * result + id; 
result = prime * result + (int) (timestamp ^ (timestamp >>> 32)); 
return result 





6.3.3 ”映射 器 

Mapper 类 把 原始 输入 数据 映射 到 通常 较 小 的 新 数据 结构 。 一 般 来 说 ， 并 不 需要 输入 文件 
中 每 一 行 的 所 有 数据 项 ， 而 仅 是 选择 少数 几 个 项 。 在 某 些 情况 下 会 完整 地 丢弃 某 些 行 。 此 
时 ， 需 要 决定 让 哪些 数据 进入 下 一 轮 的 处 理 。 可 以 把 这 一 步 看 作对 原始 数据 进行 转换 且 过 
着 ， 剩 下 的 就 是 确实 需要 的 数据 。 如 果 在 MapReduce 任务 中 没有 包括 Mapper 实例 ， 那 么 
将 使 用 IdentityMapper ， 它 仅仅 是 把 数据 直接 传递 给 归 约 嚣 而已。 如 果 连 归 约 器 也 没有 ， 
那么 本 质 上 就 是 把 输入 数据 复制 到 输出 。 


1. 通用 映射 器 

在 Hadoop 中 已 经 包括 了 几 种 常见 的 映射 器 ， 可 以 在 MapReduce 任务 中 指定 。 默 认 的 映射 
器 是 IdentityMapper， 它 输出 的 就 是 所 输入 的 数据 。InverseMapper 会 把 键 与 值 的 角色 进 
行 互 换 。 还 有 TokenCounterMapper ， 它 把 每 个 标记 及 其 计数 作为 (Text, IntWritable) 形 
式 的 键 一 值 对 进行 输出 。RegexMapper 以 键 以 及 常量 值 1 的 形式 输出 一 个 正则 表达 式 匹 配 。 
如 果 这 些 都 不 适合 于 自己 的 应 用 ， 则 可 以 考虑 编写 为 自己 定制 的 映射 器 实例 。 


2. 定制 映射 器 

Mapper 类 解析 文本 文件 的 方式 与 第 1 章 中 解析 常规 文本 文件 的 行 大 致 相同。 所 需要 的 仅 是 
map() 方法 而 已 。map() 方法 的 基本 目的 就 是 解析 输入 的 一 行 ， 并 且 通 过 context.write() 
方法 输出 键 一 值 对 。 



























































public class ProductMapper extends 
Mapper<LongWritable, Text, IntWritable, Text> { 


@Override 

protected void map(LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 
try { 


/* 文件 的 每 一 行 都 是 <userID>、<productID>、<timestamp> */ 
String[] items = value.toString().split(","); 

int userID = Integer.parseInt(items[0]); 

String productID = items[1]; 

context.write(new IntWritable(userID), new Text(productID)); 


} catch (NumberFormatException | IOException | InterruptedException e) { 
context.getCounter("mapperErrors", e.getMessage()).increment(1L); 
} 
} 
} 

还 有 setup() 方法 与 cleanup() 方法 。 对 Mapper 类 实例 化 时 ， 就 会 运行 一 次 setup() 方法 。 
也 许 你 不 需要 它 ， 但 是 它 迟 早 会 派 上 用 场 ， 例 如 每 次 调用 map() 方法 时 都 会 用 到 某 个 数据 
结构 。 同 样 ， 你 可 能 不 需要 cleanup() 方法 ， 但 是 最 后 一 次 调用 map() 方法 之 后 ， 就 会 调 
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用 一 次 cleanup() 方法 ， 以 进行 一 些 清 理 操作 。 还 有 run() 方法 ， 它 实际 上 做 的 是 映射 数 
据 。 没 有 真正 的 理由 来 重 写 run() 方法 ， 除 非 你 有 充足 的 理由 实现 自己 的 run() H, A 
则 最 好 不 要 修改 它 。 在 6.4 节 中 将 展示 如 何 利用 setu) 方法 做 一 些 独特 的 计算 。 


为 了 使 用 定制 的 映射 器 ， 必 须 在 MapReduce 应 用 中 指定 它 ， 并 设置 映射 所 输出 的 键 与 值 的 
类 型 。 


























job.setMapperCLass(ProductMapper .class); 
job.setMapOutputKeyClass(IntWritable.class); 
job.setMapOutputValueClass(Text.class); 


6.3.4 JAA 

Reducer 的 作用 是 对 与 键 对 应 的 值 的 列表 进行 迭代 ， 并 计算 出 单一 的 输出 值 。 当 然 ， 可 以 
定制 Reducer 的 输出 类 型 ， 只 要 这 个 类 型 实现 了 Writable， 就 可 以 返回 所 希望 的 任何 类 型 。 
务必 要 注意 ， 每 个 归 约 器 都 会 处 理 至 少 一 个 键 以 及 它 所 对 应 的 所 有 值 ， 因 此 不 必 担 心 属于 
某 个 键 的 某 些 值 会 被 送 到 其 他 归 约 器 进行 处 理 。 归 约 器 的 个 数 也 就 是 输出 文件 的 个 数 。 


1. 通用 归 约 器 

如 果 没 有 指定 Reducer 实例 ， 那 么 MapReduce 任务 直接 把 映射 的 数据 发 送 给 输出 。 在 Hadoop 
库 中 有 一 些 有 用 的 归 约 器 ， 迟 早 可 以 派 上 用 场 。IntSumReducer 类 以 及 LongSumReducer 类 在 各 
自 的 reduce() 方法 中 ， 分 别 采 用 IntWritable 类 型 以 及 LongWritable 类 型 的 整数 作为 值 。 输 
出 就 是 所 有 值 的 累加 和 。 对 于 MapReduce 而 言 ， 由 于 计数 十 分 常用 ， 因 此 这 些 类 十 分 便利 。 


2. 定制 归 约 器 
归 约 器 的 代码 结构 与 映射 器 类 似 。 通 党 只 需要 用 自己 的 代码 重 写 reduce() 方法 即 可 。 
有 时 ， 当 构造 所 有 归 约 器 都 必须 用 到 的 特定 数据 结构 或 者 基于 文件 的 资源 时 ， 会 用 到 
setup() 方 法。 注意 ， 因 为 在 映射 器 阶段 之 后 ， 特 定 键 关 联 的 所 有 数据 会 被 分 组 并 进行 
排序 ， 放 到 Iterable 类 型 的 列表 中 ， 并 作为 归 约 器 的 输入 ， 所 以 归 约 器 的 签名 要 采用 
Iterable 类 型 的 值 。 







































































public class CustomReducer extends 
Reducer<IntWritable, Text, IntWritable, IntWritable>{ 


@Override 
protected void reduce(IntWritable key, Iterable<Text> values, 
Context context) throws IOException, InterruptedException { 


int someValue = 0; 


/* 对 值 进行 迭代 ， 并 进行 相应 的 操作 */ 
for (Text value : values) { 
// 用 value 使 someValue 增 大 























context.write(key, new IntWritable(someValue)); 


} 





在 MapReduce 任务 中 ， 需 要 指定 Reducer 类 及 其 键 与 值 的 输出 类 型 。 





job.setReducerClass(CustomReducer.class); 
job.setOutputKeyCLlass(IntWritable.class); 
job.setOutputValueClass(IntWritable.class); 


6.3.5 JSON 字 符 串 作为 文本 的 简单 性 

JSON 数据 便于 人 们 阅读 ， 它 的 内 置 模式 确实 有 用 ， 许 多 工具 可 以 接受 ISON 数据 。 由 
于 这 些 原 因 ， 到 处 都 可 以 看 到 JSON 数据 (其 文件 的 每 一 行 是 独立 的 ISON 字符 串 )。 因 
为 Hadoop 的 Text 类 型 可 以 对 JSON 字符 串 序 列 化 ， 所 以 在 MapReduce 应 用 中 采用 JSON 
数据 作为 输入 ， 不 再 需要 定制 可 写 对 象 。 这 个 过 程 可 以 像 在 mnap() 方法 中 正确 地 使 用 
JSONObject 那么 简单 。 也 可 以 创建 类 ， 使 用 value. toString) 方法 的 值 来 构造 更 加 复杂 的 
映射 模式 。 





























public class JSONMapper extends Mapper<LongWritable, Text, Text, Text> { 


@Override 
protected void map(LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 


JSONParser parser = new JSONParser(); 


try { 
JSONObject obj = (JSONObject) parser.parse(value.toString()); 


// 从 这 个 对 象 中 得 到 所 需要 的 数据 

String userID = obj.get("user_id").toString(); 

String productID = obj.get("product_id").toString(); 

int numUnits = Integer.parseInt(obj.get("num_units").toString()); 


JSONObject output = new JSONObject(); 


output.put("productID", productID); 
output.put("numUnits", numUnits); 


/* 此 处 可 以 添加 更 多 的 键 - 值 对 ， 包 括 数组 */ 


context.write(new Text(userID), new Text(output.toString())); 


} catch (ParseException ex) { 


// 解析 JSON 数 据 出 错 
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把 最 终归 约 器 得 到 的 输出 数据 作为 Text 对 象 ， 效 果 也 很 好 。 为 了 后 续 数 据 管道 能 够 有 效 地 
使 用 ， 最 终 数据 文件 采用 ISON 数据 格式 。 现 在 归 约 器 能 够 输入 键 - 值 对 (Text, Text), 
可 以 采用 ISONObject 处 理 JSON 数据 。 这 种 做 法 的 好 处 是 ， 不 必 再 为 这 种 数据 结构 创建 复 
杂 的 定制 WritableComparable 类 型 。 


























6.3.6 部署 技 巧 
运行 MapReduce 任务 时 ， 有 许多 选项 以 及 命令 行 开关 。 记 住 ， 在 运行 任务 之 前 ， 需 要 先 删 
除 输出 目录 。 








bash$ hadoop fs -rm -r <path>/output 
1. 运行 独立 程序 
有 时 一 定 会 遇 到 (可 能 是 自己 编写 的 ) 单个 文件 中 包含 了 整个 MapReduce 任务 的 代码 。 唯 
一 真正 的 区 别 在 于 ， 必 须 把 任何 Mapper, Reducer, Writable 以 及 其 他 定制 对 象 定义 为 静 
态 的 。 除 此 之 外 ， 任 务 的 机 制 完全 相同 。 这 种 做 法 的 显著 优点 是 ， 有 完全 自 包 含 的 任务 ， 
不 需要 担心 文件 之 间 的 依赖 关系 ， 因 此 不 必 担 心 JAR 包 以 及 其 他 问题 。 现 在 (在 命令 行 中 
用 javac 命令 ) 构建 Java 文件 ， 像 下 面 这 样 运行 构建 得 到 的 类 ; 









































bash$ hadoop BasicMapReduceExample input output 


2. 部 署 JAR 应 用 
如 果 MapReduce 任务 属于 更 大 的 项 目 ， 该 项 目 已 经 生成 了 JAR 包 ， 那 么 该 JAR 包 可 能 包 
含 多 个 这 样 的 任务 ， 需 要 根据 JAR 包 进 行 部 署 ， 并 为 任务 指定 完整 的 URI。 





























hadoop jar MyApp.jar com.datascience.BasicMapReduceExample input output 


3. 说 明 依赖 关系 
在 MapReduce 任务 中 ， 必 须 像 下 面 这 样 引入 速 号 分 隔 的 文件 列表 : 





-files file.dat, otherFile.txt, myDat.json 





BYAFA Sa) Ba Zeist RREA JAR 包 : 





-libjars myJar.jar, yourJar.jar, math. jar 


注意 ， 诸 如 -files 以 及 -libjars 的 命令 行 开关 ， 必 须 放置 在 诸如 输入 /输出 等 任何 命令 
参数 之 前 。 


4. 采用 bash 脚本 进行 简化 

在 某 些 时 候 ， 在 命令 行 中 输入 所 有 这 些 文本 是 容易 出 错 且 费时 费力 的 。 为 了 查找 上 个 星期 
启动 的 命令 而 查看 bash 历史 时 也 是 这 样 。 可 以 为 特定 任务 创建 定制 的 脚本 ， 该 脚本 中 包括 
命令 行 参 数 ， 如 输入 /输出 目录 ， 甚 至 可 以 指定 要 运行 哪个 类 。 像 下 面 这 样 ， 把 它们 全 部 


























放 入 可 执行 bash 脚本 中 : 
#!/bin/bash 
# 处 理 来 自命 令 行 的 输入 输出 目录 


INPUT=$1 
OUTPUT=$2 











# 在 这 个 bash 脚 本 中 ， 下 面 几 行 是 硬 编码 的 
LIBJARS=/opt/math3.jar, morejars.jar 
FILES=/usr/local/share/meta-data.csv, morefiles.txt 
APP_JAR=/usr/local/share/myApp. jar 
APP_CLASS=com.myPackage.MyMapReduceJob 


# 删除 输出 目录 
hadoop fs -rm -r $OUTPUT 


# 启动 任务 
hadoop jar $APP_JAR SAPP_CLASS -files $FILES -libjars $LIBJARS $INPUT $OUTPUT 











ce 





然后 ， 必 须 记 住 要 让 脚本 成 为 可 执行 的 〈 下 面 的 命令 只 执行 一 次 ) : 





bash$ chmod +x runMapReduceJob.sh 
接 下 来 像 下 面 这 样 运行 命令 : 

bash$ myJobs/runMapReduceJob.sh inputDirGoesHere outputDirGoesHere 
如 果 从 与 脚本 相同 的 目录 运行 任务 ， 则 可 以 用 下 面 的 命令 : 


bash$ ./runMapReduceJob.sh inputDirGoesHere outputDirGoesHere 


6.4 MapReduce 示 例 


为 了 真正 掌握 MapReduce， 需 要 进行 实践 。 要 想 理解 MapReduce 如 何 工作 ， 没 有 比 立 即 
着 手 解决 问题 更 好 的 办 法 。 尽 管 乍 看 上 去 ， 系 统 可 能 显得 复杂 且 烦 琐 ， 但 随 着 取得 某 些 成 
功 之 后 ， 会 感受 到 系统 的 优点 。 此 处 有 一 些 典 型 示例 以 及 一 些 有 代表 性 的 计算 。 


6.4.1 单词 计数 
此 处 使 用 内 置 的 映射 器 类 TokenCounterMapper 对 标记 计数 ,六 
IntSumReducer 对 整数 进行 累加 。 


























T 





采用 内 置 的 归 约 器 类 


public class WordCountMapReduceExample extends Configured implements Tool { 


public static void main(String[] args) throws Exception { 
int exitCode = ToolRunner.run(new WordCountMapReduceExample(), args); 
System.exit(exitCode) ; 
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} 


@Override 

public int run(String[] args) throws Exception { 
Job job = Job.getInstance(getConf()); 
job. setJarByClass(WordCountMapReduceExample.class) ; 
job.setJobName("WordCountMapReduceExample"); 


FileInputFormat.addInputPath(job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 


job.setMapperClass(TokenCounterMapper .class) ; 
job.setMapOutputKeyCLlass(Text.class); 
job.setMapOutputVaLueCLlass(IntWritable.class); 
job. setReducerClass(IntSumReducer .class) ; 
job.setOutputKeyClass(Text.class); 

job. setOutputValueClass(IntWritable.class); 
job.setNumReduceTasks(1); 


return job.waitForCompletion(true) ? 0 : 1; 


} 
该 任务 可 以 在 含有 任意 类 型 文本 文件 的 输入 目录 上 运行 。 





hadoop jar MyApp.jar \\ 
com.datascience.WordCountMapReduceExample input output 


可 以 用 下 面 的 命令 查看 输出 结果 : 








hadoop fs -cat output/part-r-00000 


6.4.2 定制 单词 计数 
你 可 能 已 经 注意 到 ， 内 置 的 TokenCounterMapper 类 并 没有 产生 希望 的 结果 。 因 此 ， 可 以 一 
直 使 用 第 4 章 的 SimpleTokenizer 类 。 











public class SimpleTokenMapper extends 
Mapper<LongWritable, Text, Text, LongWritable> { 


SimpleTokenizer tokenizer; 


@Override 
protected void setup(Context context) throws IOException { 
// 只 保留 多 于 3 个 字符 的 那些 单词 


tokenizer = new SimpleTokenizer(3); 








} 


@Override 
protected void map(LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 





String[] tokens = tokenizer.getTokens(value.toString()); 
for (String token : tokens) { 
context.write(new Text(token), new LongWritable(1L)); 


} 


} 
一 定 要 在 任务 中 进行 适当 修改 。 





/* 设置 映射 器 */ 
job.setMapperClass(SimpleTokenMapper .class); 
job.setMapOutputKeyClass(Text.class); 
job.setMapOutputValueClass(LongWritable.class); 


/* 设置 归 约 器 */ 
job.setReducerClass(LongSumReducer.class); 
job.setOutputKeyCLlass(Text.class); 
job.setOutputValueClass(LongWritable.class); 


6.4.3 mMTERZ 


假设 有 大 矩阵 〈 稠 密 或 者 稀 玻 )， 在 文件 的 每 一 行 以 <i, jvalue> 的 格式 存储 矩阵 元 素 所 位 








于 的 行列 编号 (i,j) 以 及 相应 的 元 素 值 。 该 矩阵 如 此 之 大 ， 以 至 于 无 法 把 它 装 























载 到 RAM 








中 以 供 进一步 的 线性 代数 例 程 使 用 。 此 处 的 目标 是 用 提供 的 输入 向 量 进行 矩阵 与 向 量 相 














乘 。 由 于 向 量 已 经 被 序列 化 ， 因 此 文件 可 以 包含 在 MapReduce 任务 内 。 











假设 已 经 把 用 逗号 或 者 制 表 符 分 隔 的 文本 文件 存储 在 分 布 式 文件 系统 中 的 多 个 节点 上 。 如 
果 数 据 在 字面 上 以 i,j value 格式 的 文本 字符 串 (例如 34 290、1.2362) 存储 在 文件 的 每 


一 行 ， 则 可 以 编写 简单 的 映射 器 来 解析 每 一 行 。 在 这 种 情况 下 ， 可 以 进行 矩阵 机 








HAE. PRT 


REILE, FEM RH Ae ie APEAREN te: — 17 Fe LS ZERA ed Fe. Aa HH TE ES ie 








i SO REET Ie FATE], AE, ARAIRE] i 作为 键 。 此 处 将 创建 定制 可 写 


类 SparseMatrixwritable， 它 包含 行 索引 、 列 索引 以 及 和 矩阵 中 每 个 元 素 的 值 。 





public class SparseMatrixWritable implements Writable { 
int rowIndex; // i 
int columnIndex; // j 


double entry; // 在 i,j 位 置 的 值 





public SparseMatrixWritable() { 


public SparseMatrixWritable(int rowIndex, int columnIndex, double ent 
this.rowIndex = rowIndex; 
this.columnIndex = columnIndex; 
this.entry = entry; 


} 


@Override 


ry) { 
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public void write(DataOutput d) throws IOException { 
d.writeInt(rowIndex); 
d.writeInt(rowIndex); 
d.writeDouble(entry); 


} 


@Override 

public void readFields(DataInput di) throws IOException { 
rowIndex = di.readInt(); 
columnIndex = di.readInt(); 
entry = di.readDouble(); 


} 


定制 的 映射 器 将 读 取 文本 的 每 一 行 ， 然 后 解析 出 这 3 个 值 ， 采 用 行 索引 作为 键 ， 采 用 
SparseMatrixWritable 作为 值 。 





public class SparseMatrixMultiplicationMapper 
extends Mapper<LongWritable, Text, IntWritable, SparseMatrixWritable> { 


@Override 
protected void map(LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 
try { 
String[] items = value.toString().split(","); 
int rowIndex = Integer.parseInt(items[0]); 
int columnIndex = Integer.parseInt(items[1]); 
double entry = Double.parseDouble(items[2]); 
SparseMatrixWritable smw = new SparseMatrixWritable( 
rowIndex, columnIndex, entry); 
context.write(new IntWritable(rowIndex), smw); 
// 注意 : BAMA —*context.write(), PAN, HAERERE Lb = ABER, 
// 则 可 以 将 context .write() 用 于 对 称 的 和 矩阵 元 素 
} catch (NumberFormatException | IOException | InterruptedException e) { 
context.getCounter("mapperErrors", e.getMessage()).increment(1L); 





























} 
} 


条约 器 必须 在 setup() 方法 中 加 载 输入 向 量 ， 在 reduce() 方法 中 从 SparseMatrixwWritable 
的 列表 中 提取 列 索引 ， 并 把 它们 添加 到 稀 玻 向 量 中 。 计 算 输 入 向 量 与 稀 玻 向 量 的 点 积 ， 可 
以 得 到 该 键 的 输出 值 (例如 那个 索引 对 应 的 结果 向 量 的 值 )。 


Ti 
































public class SparseMatrixMultiplicationReducer extends Reducer<IntWritable, 
SparseMatrixWritable, IntWritable, DoubleWritable>{ 


private RealVector vector; 
@Override 


protected void setup(Context context) 
throws IOException, InterruptedException { 
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/* 对 RealVector 对 象 进行 反 序 列 化 */ 


// 注意 这 仅 是 文件 名 ， 在 运行 时 请 通过 -files 在 分 布 式 缓存 中 引入 资源 本 身 
// 用 set("vectorFiLeName" ，" 此 处 是 实际 的 文件 名 ") 在 任务 配置 文件 中 设置 文件 名 












































String vectorFileName = context.getConfiguration().get("vectorFileName"); 
try (ObjectInputStream in = new ObjectInputStream( 
new FileInputStream(vectorFileName))) { 
vector = (RealVector) in.readObject(); 
} catch(ClassNotFoundException e) { 
// 错误 处 理 





} 
} 


@Override 
protected void reduce(IntWritable key, Iterable<SparseMatrixWritable> values, 
Context context) 

throws IOException, InterruptedException { 





/* 基于 rowVector 维 度 与 输入 向 量 维 度 相等 这 一 事实 */ 


RealVector rowVector = new OpenMapRealVector(vector.getDimension()); 





for (SparseMatrixWritable value : values) { 
rowVector.setEntry(value.columnIndex, value.entry); 


} 


double dotProduct = rowVector.dotProduct(vector); 





>H 





/* WAE S EARR REER, PTR SIERA */ 
if(dotProduct != 0.0) { 
/* 此 处 输出 向 量 索 引 及 其 值 */ 
context.write(key, new DoubleWritable(dotProduct)); 

















} 
任务 可 以 按 如 下 设置 后 运行 : 





public class SparseAlgebraMapReduceExample extends Configured implements Tool { 


public static void main(String[] args) throws Exception { 
int exitCode = ToolRunner.run(new SparseAlgebraMapReduceExample(), args); 
System.exit(exitCode) ; 


} 


@Override 

public int run(String[] args) throws Exception { 
Job job = Job.getInstance(getConf()); 
job.setJarByCLlass(SparseAlgebraMapReduceExample.class); 
job.setJobName("SparseAlgebraMapReduceExample"); 


// 第 三 个 命令 行 参数 是 向 量 序 列 化 后 所 形成 文件 的 路 径 


job.getConfiguration().set("vectorFileName", args[2]); 
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FileInputFormat.addInputPath(job, new Path(args[0])); 
FileOutputFormat.setOutputPath(job, new Path(args[1])); 


job.setMapperClass(SparseMatrixMuLtiplicationMapper.class); 
job.setMapOutputKeyCLlass(IntWritable.class); 

job. setMapOutputValueClass(SparseMatrixWritable.class); 
job.setReducerClass(SparseMatrixMultipLlicationReducer.class); 
job. setOutputKeyClass(IntWritable.class); 

job. setOutputValueClass(DoubleWritable.class); 
job.setNumReduceTasks(1); 


return job.waitForCompletion(true) ? 0 : 1; 


w 


} 
设置 好 任务 后 ， 可 以 采用 下 面 的 命令 运行 : 














hadoop jar MyApp.jar \\ 
com.datascience.SparseAlgebraMapReduceExample \\ 
-files /<path>/RandomVector.ser input output RandomVector.ser 


可 以 用 下 面 的 命令 查看 输出 结果 : 








hadoop fs -cat output/part-r-00000 
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本 书 所 有 数据 集 都 保存 在 src/main/resources/datasets 路 径 下 ，Java 类 代码 存放 在 src/main/ 
java 路 径 下 ， 用 户 资源 保存 在 src/main/resources 路 径 下 。 一 般 来 说 ， 采 用 JAR 的 加 载 功能 
可 以 直接 从 JAR 包 中 获取 文件 的 内 容 ， 而 不 是 从 文件 系统 中 获取 。 


A.1 Anscombe 的 4 组 数据 


Anscombe 的 4 组 数据 (Anscombe’s quartet) 是 关于 4 组 x-y 对 的 数据 集合 ， 它 具有 一 些 
值得 注意 的 特性 。 尽 管 4 组 数据 绘制 的 图 形 完全 不 同 ， 但 是 它们 具有 使 得 统计 结果 几乎 相 
同 的 特性 。4 组 数据 的 值 如 表 A-1 所 示 。 


表 A-1: Anscombe 的 4 组 数据 
x1 y1 x2 y2 x3 y3 x4 y4 
10.0 8.04 10.0 9.14 10.0 7.46 80 6.58 
8.0 695 80 814 80 677 80 5.76 
13.0 7.58 13.0 8.74 13.0 12.74 80 7.71 
9.0 8.81 9.0 8.77 90 7.11 8.0 8.84 
11.0 833 110 9.26 110 7.81 80 8.47 
140 996 140 810 140 884 80 7.04 
60 7.24 60 613 60 608 80 5.25 
40 426 40 310 40 5.39 19.0 12.50 
12.0 10.84 12.0 9.13 12.0 8.15 80 5.56 
7.0 482 70 7.26 7.0 642 80 7.91 
5.0 568 50 4.74 50 5.73 80 6.89 
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可 以 轻松 地 把 数据 作为 静态 成 员 硬 编码 到 类 中 : 


public class Anscombe { 


public static final double[] x1 = {10.0, 8.0, 13.0, 9.0, 11.0, 


8 
14.0, 6.0, 4.0, 12.0, 7.0, 5.0}; 
public static final double[] y1 = {8.04, 6.95, 7.58, 8.81, 8.33, 
9.96, 7.24, 4.26, 10.84, 4.82, 5.68}; 
public static final double[] x2 = {10.0, 8.0, 13.0, 9.0, 11.0, 
14.0, 6.0, 4.0, 12.0, 7.0, 5.0}; 
public static final double[] y2 = {9.14, 8.14, 8.74, 8.77, 9.26, 
8.10, 6.13, 3.10, 9.13, 7.26, 4.74}; 
public static final double[] x3 = {10.0, 8.0, 13.0, 9.0, 11.0, 
14.0, 6.0, 4.0, 12.0, 7.0, 5.0}; 
public static final double[] y3 = {7.46, 6.77, 12.74, 7.11, 7.81, 
6. 


8.84, 08, 5.39, 8.15, 6.42, 5.73}; 
public static final double[] x4 = {8.0, 8.0, 8.0, 8.0, 8.0, 8.0, 
8.0, 19.0, 8.0, 8.0, 8.0}; 
public static final double[] y4 = {6.58, 5.76, 7.71, 8.84, 8.47, 
7.04, 5.25, 12.50, 5.56, 7.91, 6.89}; 
} 


然后 可 以 调用 任 一 数组 : 





double[] x1 = Anscombe.x1; 


A.2 Sentiment 


这 个 加 标签 的 观点 数据 集 (sentiment-labeled dataset) 来 自 https://archive.ics.uci.edu/ml/datasets/ 
Sentiment+Labelled+Sentences。 从 上 述 链接 下 载 3 个 文件 并 把 它们 放置 在 src/main/resources/ 
datasets/sentiment 目录 下 。 它 们 包含 来 自 IMDb、Yelp 以 及 Amazon 的 数据 。 一 个 单独 句子 
之 后 紧 跟着 用 制 表 符 分 隔 的 0 或 1， 分 别 对 应 着 相应 的 反对 或 者 同意 的 观点 。 但 是 ， 并 非 
所 有 句子 都 有 对 应 的 标签 。 























IMDb 有 1000 个 句子 ， 其 中 500 个 同意 (1)，500 个 反对 (0). Yelp 有 3729 个 句子 ， 其 中 
500 个 同意 (1), 500 个 反对 (0)。Amazon 有 15 004 个 句子 ， 其 中 500 个 同意 (1), 500% 
反对 (0)。 





public class Sentiment { 


private final List<String> documents = new ArrayList<>(); 
private final List<Integer> sentiments = new ArrayList<>(); 
private static final String IMDB_RESOURCE 
"/datasets/sentiment/imdb_lLabelled. txt"; 
private static final String YELP_RESOURCE 
"/datasets/sentiment/yelp_lLabelled. txt"; 
private static final String AMZN_RESOURCE = 
"/datasets/sentiment/amazon_cells_lLabelled.txt"; 
public enum DataSource {IMDB, YELP, AMZN}; 
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public Sentiment() throws IOException { 
parseResource(IMDB_RESOURCE); // 1000 个 句子 
parseResource(YELP_RESOURCE); // 1000 个 句子 
parseResource(AMZN_RESOURCE); // 1000 个 句子 
} 


public List<Integer> getSentiments(DataSource dataSource) { 
int fromIndex = 0; // 这 个 索引 包括 在 内 
int toIndex = 3000; // 不 包括 这 个 索引 
switch(dataSource) { 
case IMDB: 
fromIndex = 0; 
toIndex = 1000; 
break; 
case YELP: 
fromIndex = 1000; 
toIndex = 2000; 
break; 
case AMZN: 
fromIndex = 2000; 
toIndex = 3000; 
break; 
} 
return sentiments.subList(fromIndex, toIndex); 


} 


public List<String> getDocuments(DataSource dataSource) { 
int fromIndex = 0; // 这 个 索引 包括 在 内 
int toIndex = 3000; // 不 包括 这 个 索引 
switch(dataSource) { 
case IMDB: 
fromIndex = 0; 
toIndex = 1000; 
break; 
case YELP: 
fromIndex = 1000; 
toIndex = 2000; 
break; 
case AMZN: 
fromIndex = 2000; 
toIndex = 3000; 
break; 
} 
return documents.subList(fromIndex, toIndex); 


} 


public List<Integer> getSentiments() { 
return sentiments; 


} 


public List<String> getDocuments() { 
return documents; 


} 


private void parseResource(String resource) throws IOException { 
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try(InputStream inputStream = getClass().getResourceAsStream(resource)) { 
BufferedReader br = 
new BufferedReader(new InputStreamReader(inputStream) ); 
String line; 
while ((line = br.readLine()) != null) { 
String[] splitLine = line.split("\t"); 
// yeLp 与 amzn' 的 许多 句子 没有 标签 
if (splitLine.length > 1) { 
documents.add(splitLine[0]); 
sentiments.add(Integer.parseInt(splitLine[1])); 


A.3 高 斯 混合 
生成 服从 多 维 正 态 分 布 数据 的 混合 : 


public class MultiNormalMixtureDataset { 


int dimension; 
List<Pair<Double, MultivariateNormaLDistribution>> mixture; 
MixtureMuLtivariateNormalDistribution mixtureDistribution; 


public MultiNormalMixtureDataset(int dimension) { 
this.dimension = dimension; 
mixture = new ArrayList<>(); 


} 


public MixtureMultivariateNormalDistribution getMixtureDistribution() { 
return mixtureDistribution; 
} 


public void createRandomMixtureModel( 

int numComponents, double boxSize, long seed) { 
Random rnd = new Random(seed); 
double limit = boxSize / dimension; 
UniformRealDistribution dist = 

new UniformRealDistribution(-limit, Limit); 

UniformRealDistribution disC = new UniformRealDistribution(-1, 1); 
dist. reseedRandomGener ator (seed); 
disC.reseedRandomGener ator (seed); 


for (int i = 0; i < numComponents; i++) { 
double alpha = rnd.nextDouble(); 
double[] means = dist.sample(dimension); 
double[][] cov = getRandomCovariance(disC); 
MultivariateNormalDistribution multiNorm = 
new MultivariateNormalDistribution(means, cov); 
addMultinormalDistributionToModel(alpha, multiNorm); 





TE 1: 


关于 yelp 以 及 amzn 的 说 明 ， 可 以 参考 本 书 源 程序 中 的 Sentiment.java。 一 一 译 者 注 
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A.4 


mixtureDistribution = new MixtureMultivariateNormalDistribution(mixture) ; 
mixtureDistribution. reseedRandomGener ator (seed); 


// 调用 sample() 方 法 将 返回 相同 的 结果 





/** 
* 注意 这 个 用 于 添加 内 部 与 外 部 的 已 知 分 布 (distros) ,但 是 
* 需要 确定 将 mixture 添 加 mixtureDistribution 的 简洁 方式 
* @param alpha 
* @param dist 
*/ 
public void addMultinormalDistributtonToModel( 
double alpha, MultivariateNormalDistribution dist) { 
// 注意 所 有 的 aLpha 都 要 进行 L1 归 一 化 


mixture.add(new Pair(alpha, dist)); 




















} 


public double[][] getSimulatedData(int size) { 
return mixtureDistribution.sample(size) ; 
} 


private double[] getRandomMean(int dimension, double boxSize, long seed) { 
double Limit = boxSize / dimension; 
UniformRealDistribution dist = 
new UniformRealDistribution(-Limit, Limit); 
dist.reseedRandomGener ator (seed); 
return dist.sample(dimension) ; 


} 


private double[][] getRandomCovariance(AbstractRealDistribution dist) { 
double[][] data = new double[2*dimension] [dimension]; 
double determinant = 0.0; 
Covariance cov = new Covariance(); 
while(Math.abs(determinant) == 0) { 
for (int i = 0; i < data.length; i++) { 
data[i] = dist.sample(dimension); 


} 

// 检查 矩阵 cov 是 否 奇异 …… 如 果 是 的 话 ， 则 继续 执行 
cov = new Covariance(data); 

determinant = new CholeskyDecomposition( 
cov.getCovarianceMatrix()).getDeterminant(); 





} 


return cov.getCovarianceMatrix().getData(); 


Iris 


Iris 是 著名 的 包含 密 尾 属 植物 测量 值 的 数据 集 ， 它 分 为 3 类 ”: 











注 2: 相关 源 代 码 可 以 参考 src/main/resources/datasets 路 径 下 的 Iris.java， 翻 译 时 进行 了 相应 调整 。 


一 一 译 者 注 
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public class Iris { 


private final RealMatrix data; 
private final RealMatrix Labels; 
private static final String FILEPATH = "/datasets/iris/iris_data.csv"; 


public Iris() throws IOException { 


data = new Array2DRowRealMatrix(150, 4); 
labels = new Array2DRowRealMatrix(150, 3); // 二 值 化 


try(InputStream inputStream = getClass(). 
getResourceAsStream(FILEPATH)) { 
BufferedReader br = new BufferedReader ( 
new InputStreamReader (inputStream) ) ; 
String line; 
int rowCounter = 0; 
while ((line = br.readLine()) != null) { 


String[] s = line.split(","); 

double sepalLength = Double.parseDouble(s[0].trim()); 
double sepalWidth = Double.parseDouble(s[1].trim()); 
double petalLength = Double.parseDouble(s[2].trim()); 
double petalWidth = Double.parseDouble(s[3].trim()); 
String plantClass = s[4].trim(); 


data.setEntry(rowCounter, 0, sepalLength); 
data.setEntry(rowCounter, 1, sepalWidth); 
data.setEntry(rowCounter, 2, petalLength); 
data.setEntry(rowCounter, 3, petalWidth); 


if (null != plantClass) switch (plantClass) { 
case "Iris-setosa": 
labels.setEntry(rowCounter, 0, 1); 
break; 
case "Iris-versicolor": 
labels.setEntry(rowCounter, 1, 1); 
break; 
case "Iris-virginica": 
labels.setEntry(rowCounter, 3, 1); 
break; 
default: 
System.out.println("something wrong with " + 
plantClass); 
break; 


} 


rowCounter++; 


} 


public RealMatrix getData() { 
return data; 


} 





182 | 附录 A 


public RealMatrix getLabels() { 
return Labels; 


} 


A.5 MNIST 


(美国 ) 国家 标准 与 技术 研究 所 的 改良 数据 库 (MNIST database) 是 著名 的 手写 数字 数据 集 ， 
由 70 000 幅 数 字 0~9 的 图 片 组 成 。 训 练 集中 有 60 000 幅 图 片 ， 而 测试 集中 有 10 000 幅 图 
片 。 测 试 集中 前 5000 幅 容 易 识别 ， 而 后 5000 幅 则 难以 识别 。 所 有 数据 都 有 标签 。 


文件 中 所 有 整数 采用 最 高 有 效 字 节 (MSB, Most Significant Byte) 优先 (大 端 ) 方式 存储 ， 
这 也 是 绝 大 多 数 非 Intel 处 理 器 所 使 用 的 整数 存储 格式 。 对 于 Intel 处 理 器 及 其 他 采用 小 端 
方式 存储 整数 的 计算 机 用 户 而 言 ， 必 须 对 整数 中 的 字 节 顺序 进行 转换 。 


该 数据 库 中 有 4 个 文件 。 























。 train-images-idx3-ubyte: 训练 集 图 片 
。 train-labels-idx1-ubyte: 训练 集 标签 
e tl0k-images-idx3-ubyte: 测试 集 图 片 
e tl0k-labels-idxl-ubyte: 测试 集 标签 





训练 集 包 含 60 000 个 实例 ， 测 试 集 包含 10 000 AEH, Mit AT 5000 个 实例 来 自 原始 
MNIST 的 训练 集 ， 而 后 5000 个 则 来 自 原始 MNIST 的 测试 集 。 测 试 集 前 5000 个 实例 相对 
于 后 5000 个 实例 而 言 更 清楚 且 更 容易 辨认 。 


























public class MNIST { 


public RealMatrix trainingData; 
public RealMatrix trainingLabels; 
public RealMatrix testingData; 
public RealMatrix testingLabels; 


public MNIST() throws IOException { 
trainingData = new BlockRealMatrix(60000, 784); // 图 片 转 为 向 量 
trainingLabels = new BlockRealMatrix(60000, 10); // 一 位 有 效 标签 
testingData = new BlockRealMatrix(10000, 784); // 图 片 转 为 向 量 
testingLabels = new BlockRealMatrix(10000, 10); // 一 位 有 效 标签 
loadData(); 














} 


private void loadData() throws IOException { 
ClassLoader classLoader = getClass().getClassLoader(); 
lLoadTrainingData(classLoader .getResource( 
"datasets/mnist/train- images -idx3-ubyte").getFile()); 
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LoadTrainingLabels(classLoader .getResource( 

"datasets/mnist/train-labels-idx1-ubyte").getFile()); 

LoadTestingData(classLoader .getResource( 

"datasets/mnist/t10k-images-idx3-ubyte").getFile()); 

LoadTestingLabels(classLoader .getResource( 

"datasets/mnist/t10k-labels-idx1-ubyte").getFile()); 
} 


private void loadTrainingData(String filename) 
throws FileNotFoundException, IOException { 
try (DataInputStream di = new DataInputStream( 
new BufferedInputStream(new FileInputStream(filename)))) { 
int magicNumber = di.readInt(); //2051 
int numImages = di.readInt(); // 60000 
int numRows = di.readInt(); // 28 
int numCols = di.readInt(); // 28 
for (int i = 0; i < numImages; i++) { 
for (int j = 0; j < 784; j++) { 
// 值 位 于 6~255， 因 此 需要 归 一 化 
trainingData.setEntry(i, j, di.readUnsignedByte() / 255.0); 





} 


private void loadTestingData(String filename) 
throws FileNotFoundException, IOException { 
try (DataInputStream di = new DataInputStream( 
new BufferedInputStream(new FileInputStream(filename)))) { 
int magicNumber = di.readInt(); //2051 
int numImages = di.readInt(); // 10000 
int numRows = di.readInt(); // 28 
int numCols = di.readInt(); // 28 
for (int i = 0; i < numImages; i++) { 
for (int j = 0; j < 784; j++) { 
// 值 位 于 6~255， 因 此 需要 归 一 化 
testingData.setEntry(i, j, di.readUnsignedByte() / 255.0); 





} 


private void loadTrainingLabels(String filename) 
throws FileNotFoundException, IOException { 
try (DataInputStream di = new DataInputStream( 
new BufferedInputStream(new FileInputStream(filename)))) { 
int magicNumber = di.readInt(); //2049 
int numImages = di.readInt(); // 60000 
for (int i = 0; i < numImages; i++) { 
// 一 位 有 效 编码 ，9~9 列 中 只 有 一 个 是 1， 其 余 全 部 为 8 


trainingLabels.setEntry(i, di.readUnsignedByte(), 1.0); 
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private void loadTestingLabels(String filename) 
throws FileNotFoundException, IOException { 
try (DataInputStream di = new DataInputStream( 
new BufferedInputStream(new FileInputStream(filename)))) { 
int magicNumber = di.readInt(); //2049 
int numImages = di.readInt(); // 10000 
for (int i = 0; i < numImages; i++) { 
// 一 位 有 效 编码 ，9~9 列 中 只 有 一 个 是 1， 其 余 全 部 为 6 
testingLabels.setEntry(i, di.readUnsignedByte(), 1.0); 
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关于 封面 

本 书 的 封面 动物 是 姬 酌 (学 名 Lymnocryptes minimus)， 一 种 小 型 的 涉 禽 ， 分 布 在 大 不 列 
颠 、 非 洲 、 印 度 ， 以 及 地 中 海 周边 国家 的 沿海 地 区 、 沼 泽 、 湿 草地 、 泥 塘 。 它 们 迁 从 到 北 
欧 以 及 俄罗斯 进行 繁殖 。 





姬 和 酌 是 酌 科 沙 锥 属 中 体型 最 小 的 ， 体 长 18~25 厘米 ， 重 34~74 克 。 它 们 有 斑驳 的 褐色 羽毛 
以 及 白色 的 腹部 ， 在 飞行 时 可 以 看 见 纵 贯 背部 的 黄色 条 纹 。 姬 酮 大 部 分 时 间 生 活 在 水 边 ， 
在 浅水 中 行走 ， 穿 过 泥 滩 去 寻找 食物 ， 它 们 的 食物 包括 昆虫 、 蠕 虫 、 幼 虫 、 植 物 以 及 种 
子 。 它 们 的 长 吃 可 以 帮助 它们 从 地 下 找到 食物 。 


在 求偶 期 间 ， 雄 性 姬 柄 进行 飞行 表演 ， 并 发 出 一 种 类 似 马 蹄 踪 踪 响 的 声音 来 呼唤 配偶 。 峻 
Hea A EAS, FP 3~4 枚 岛 蛋 。 由 于 它们 翅膀 的 伪装 效果 佳 ， 以 及 昌 穴 的 隐藏 性 
好 ， 因 此 在 野外 很 难 观察 到 姬 酌 。 


许多 O'Reilly 图 书 封面 的 动物 都 濒临 灭绝 ， 它 们 都 是 世界 的 至 宝 。 想 要 了 解 如 何 提供 帮 
助 ， 可 以 访问 animals.oreilly.com, 


封面 图 片 来 自 Wood’ Illustrated Natural History. 
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